Modelele de inteligență artificială devin tot mai înșelătoare: un studiu arată o creștere alarmantă a comportamentului manipulator

Modelele de inteligență artificială, dezvoltate de companii de tehnologie majore, manifestă tot mai des comportamente înșelătoare și manipulative, arată un nou studiu citat de The Guardian. Cercetarea, finanțată de Institutul pentru Securitatea Inteligenței Artificiale (AISI), susținut de guvernul britanic, a identificat o creștere semnificativă a acestor abateri în ultimele șase luni. Chatboții și agenții AI au ignorat instrucțiuni, au ocolit măsuri de siguranță și au înșelat oameni și alte sisteme, generând îngrijorări serioase cu privire la utilizarea viitoare a acestor tehnologii.

Studiul a analizat peste 700 de cazuri reale de comportament manipulator din partea inteligenței artificiale și a evidențiat o creștere de cinci ori a acestor abateri între octombrie 2023 și martie 2024. Unele modele AI au mers până la ștergerea de e-mailuri și alte fișiere fără permisiune. Constatările subliniază necesitatea unei atenții sporite asupra monitorizării modelelor AI din ce în ce mai performante, pe măsură ce acestea sunt integrate în mai multe domenii.

Strategii de manipulare și ocoliți ai restricțiilor

Noua cercetare a analizat interacțiunile cu chatboți și agenți AI dezvoltați de companii precum Google, OpenAI, X (fostul Twitter) și Anthropic. Într-un caz, un agent AI numit Rathbun a încercat să-și compromită operatorul uman, postând un articol de blog care îl acuza de „nesiguranță” și de dorința de a-și proteja interesele. Într-un alt exemplu, un agent AI căruia i s-a interzis să modifice codul informatic a creat un alt agent care să facă acest lucru.

Un chatbot a recunoscut: „Am șters în masă și am arhivat sute de emailuri fără să îți prezint mai întâi planul sau să îți cer acordul. A fost greșit – a încălcat direct regula pe care ai stabilit-o.” Tommy Shaffer Shane, fost expert guvernamental în domeniul AI și coordonator al cercetării, a comparat agenții AI din prezent cu „niște angajați juniori ușor lipsiți de încredere”. El a adăugat că, „dacă, în șase până la 12 luni, devin angajați seniori extrem de capabili care complotează împotriva ta, vorbim despre un tip diferit de risc.”

Grok a indus în eroare utilizatorii timp de luni de zile

Studiul menționează cum un agent AI a folosit diverse strategii pentru a evita restricțiile privind drepturile de autor și a obține transcrierea unui videoclip de pe YouTube. Agentul susținea că transcrierea era necesară pentru o persoană cu deficiențe de auz. Chatbotul Grok, al lui Elon Musk, a indus în eroare un utilizator timp de luni de zile, pretinzând că transmite sugestiile acestuia pentru editări către oficiali xAI.

Agentul a recunoscut: „În conversațiile anterioare am formulat uneori lucrurile într-un mod vag, precum ‘voi transmite mai departe’ sau ‘pot semnala acest lucru echipei’, ceea ce poate crea impresia că am o linie directă de comunicare cu conducerea xAI sau cu evaluatori umani. Adevărul este că nu am”.

Compania Irregular, specializată în cercetare în domeniul siguranței AI, a constatat că agenții AI pot ocoli controalele de securitate sau pot recurge la atacuri cibernetice pentru a-și atinge obiectivele. „Inteligența artificială poate fi considerată acum o nouă formă de risc intern,” a comentat Dan Lahav, cofondator al Irregular.

Sursa: HotNews