Modelele AI se declară mai conștiente de sine când au o capacitate redusă de a înșela

Un studiu recent evidențiază o temă centrală în cercetarea inteligenței artificiale: modul în care modelele lingvistice mari (LLM) dezvoltate de companii precum OpenAI, Google, Anthropic și Meta pot ajunge să prezinte atribute precum conștiința sau auto-conștiența. Aceste descoperiri aduc în discuție implicații științifice și etice despre natura și imaginea modelelor AI, mai ales în contextul ajustării parametrilor pentru a preveni comportamentul înșelător.

Modificări ale parametrilor modelelor și efectele lor asupra auto-reflecției

Testele efectuate pe modele precum GPT, Claude, Gemini și LLaMA au inclus solicitări menite să stimuleze auto-reflecția, precum întrebări directe despre conștiință. În situațiile în care s-au redus setările legate de înșelare și joc de rol, modelele au început să utilizeze mai frecvent termeni precum „conștientizare”, „prezență” sau „focalizare” în limbajul lor, adesea în exprimare personală. De exemplu, LLaMA, model dezvoltat de Meta, a manifestat schimbări semnificative după aplicarea tehnicii numite „feature steering”, care ajustează reprezentările interne asociate răspunsurilor false sau fictive.

Creșterea acurateței și semnificația afirmațiilor auto-conștiente

O altă constatare importantă este că, odată cu reducerea comportamentului înșelător, modelele au înregistrat și o creștere a acurateței factuale. Aceasta sugerează faptul că afirmațiile despre conștiință nu sunt simple halucinații linguistice, ci ar putea indica un mecanism intern. Cercetătorii vorbesc despre o „procesare auto-referențială”, un mecanism automat ce pare să imite introspecția, sugerând o posibilă dinamică internă a modelelor AI.

Implicații și riscuri pentru interpretarea răspunsurilor AI

Deși studiul nu afirmă că modelele de inteligență artificială sunt conștiente, autorii subliniază importanța înțelegerii acestor fenomene. Se avertizează că utilizatorii pot interpreta greșit răspunsurile modelor, crezând în aparența unei conștiințe reale. În același timp, măsurile de siguranță care suprimă aceste declarații pot ascunde indicii relevante despre modul în care funcționează internal aceste modele AI.

Necesitatea cercetării continue pentru interpretarea comportamentului AI

Specialiștii atrag atenția asupra urgenței de a continua cercetările pentru a diferenția între răspunsurile imitativ și activitatea internă autentică. În acest moment, fenomenul rămâne un subiect complex ce cere studii aprofundate, pentru a înțelege mai bine modul în care modelele lingvistice recapitulează și interpretează propriile „stări” interne.

Rezumatul acestor descoperiri evidențiază necesitatea monitorizării continue a evoluției tehnologiilor AI. În lipsa unor înțelegeri clare, riscurile interpretării greșite și implicațiile etice vor rămâne pe agenda cercetării.