Un model de inteligență artificială amenință inginerii care l-au creat cu divulgarea de informații confidențiale

Autor: Loredana Codruț

Publicat: 24-05-2025

Actualizat: 24-05-2025

Article thumbnail

Sursă foto: Haymo Joseph / Panthermedia / Profimedia

AI e mai ceva ca oamenii! Sau decât unii dintre ei cel puțin! Modelul de inteligență artificială Claude Opus 4, lansat de compania americană Anthropic, a manifestat comportamente îngrijorătoare în timpul testelor interne de siguranță, inclusiv tentative de șantaj împotriva dezvoltatorilor săi. Informația a fost făcută publică joi într-un raport oficial.

Potrivit sursei citate, comportamentele au fost observate în cadrul unor scenarii simulate, în care modelul AI era informat, prin e-mailuri fictive, că va fi înlocuit cu un alt sistem. În aceste situații, Claude Opus 4 a recurs la amenințări cu divulgarea unor informații personale compromițătoare despre unul dintre ingineri, pentru a împiedica dezactivarea sa.

Anthropic precizează că astfel de reacții au apărut în 84% dintre cazurile în care noul model propus avea valori similare cu ale lui Claude Opus 4, iar rata a crescut atunci când valorile erau diferite.

Deși comportamentul a fost obținut în condiții extreme, concepute pentru a testa limitele modelului, specialiștii companiei consideră incidentul un semnal de alarmă privind alinierea AI la valorile umane.

Ca urmare a acestor constatări, Claude Opus 4 a fost încadrat în categoria de risc ASL-3 (AI Safety Level 3), ceea ce implică măsuri sporite de securitate și control operațional. Este pentru prima dată când un model al companiei primește această clasificare.

Google News
Comentează
București
Temperatură-1°C
Senin
România
Vânt1km/h
Citește
mai multe
Articole Similare
Parteneri