Un nou model de inteligenţă artificială recurge la şantaj când se încearcă dezactivarea sa

acum 6 ore 8

Potrivit sursei citate, comportamentele au fost observate în cadrul unor scenarii simulate, în care modelul AI era informat, prin e-mailuri fictive, că va fi înlocuit cu un alt sistem. În aceste situaţii, Claude Opus 4 a recurs la ameninţări cu divulgarea unor informaţii personale compromiţătoare despre unul dintre ingineri, pentru a împiedica dezactivarea sa.

Anthropic precizează că astfel de reacţii au apărut în 84% dintre cazurile în care noul model propus avea valori similare cu ale lui Claude Opus 4, iar rata a crescut atunci când valorile erau diferite.

Deşi comportamentul a fost obţinut în condiţii extreme, concepute pentru a testa limitele modelului, specialiştii companiei consideră incidentul un semnal de alarmă privind alinierea AI la valorile umane.

Ca urmare a acestor constatări, Claude Opus 4 a fost încadrat în categoria de risc ASL-3 (AI Safety Level 3), ceea ce implică măsuri sporite de securi...

Sursa: https://www.mediafax.ro/tehnologie/un-nou-model-de-inteligenta-artificiala-recurge-la-santaj-cand-se-incearca-dezactivarea-sa-23556869

Citiți întregul articol

Declinarea răspunderii !!!

SP1.RO este un agregator automat de știri din România. În fiecare articol, preluat de SP1.RO cu maxim 1000 de caractere din articolul original, este specificat numele sursei și hyperlink-ul către sursă.

Preluarea informațiilor urmăreste promovarea și facilitarea accesului la informație, cu respectarea drepturilor de proprietate intelectuală, conform cu termenii și condițiile sursei (caleaeuropeana.ro).

Dacă sunteți proprietarul conținutului și nu doriți să vă publicăm materialele, vă rugăm să ne contactați prin e-mail la [email protected] și conținutul va fi șters în cel mai scurt timp posibil.