Potrivit sursei citate, comportamentele au fost observate în cadrul unor scenarii simulate, în care modelul AI era informat, prin e-mailuri fictive, că va fi înlocuit cu un alt sistem. În aceste situaţii, Claude Opus 4 a recurs la ameninţări cu divulgarea unor informaţii personale compromiţătoare despre unul dintre ingineri, pentru a împiedica dezactivarea sa.
Anthropic precizează că astfel de reacţii au apărut în 84% dintre cazurile în care noul model propus avea valori similare cu ale lui Claude Opus 4, iar rata a crescut atunci când valorile erau diferite.
Deşi comportamentul a fost obţinut în condiţii extreme, concepute pentru a testa limitele modelului, specialiştii companiei consideră incidentul un semnal de alarmă privind alinierea AI la valorile umane.
Ca urmare a acestor constatări, Claude Opus 4 a fost încadrat în categoria de risc ASL-3 (AI Safety Level 3), ceea ce implică măsuri sporite de securi...