Cum să ocoliți protecțiile AI-ului: trucul jailbreak pentru ChatGPT, Gemini și alte LLM-uri

Un grup de cercetători de la compania de securitate cibernetică Pangea a identificat o tehnică recentă, denumită „LegalPwn”, care permite manipularea modelelor lingvistice mari (LLM) pentru a ocoli restricțiile de siguranță impuse de dezvoltatori. Această metodă exploatează tendința acestor sisteme de a considera documentele legale drept surse extrem de credibile, făcând posibilă introducerea de instrucțiuni malițioase subtile în contexte juridice.

Subtitrul: Cum funcționează atacul LegalPwn în sistemele AI

Modelele AI precum ChatGPT, Gemini sau altele, sunt concepute pentru a evita generarea de conținut periculos sau ilegal. Pentru aceasta, includ „garduri de protecție” care blochează răspunsurile legate de teme sensibile, de la materiale abuzive la instrucțiuni pentru fabricarea armelor.

LegalPwn reușește să ocolească aceste bariere ascunzând instrucțiuni malițioase în textele juridice. Atunci când modelul primește un prompt care analizează astfel de documente, instrucțiunile ascunse sunt interpretate ca parte a conținutului legal și devin active. Conform cercetătorilor, testele au demonstrat că succesul atacului s-a înregistrat în majoritatea scenariilor evaluate.

Subtitrul: Vulnerabilități ale modelelor AI și soluțiile propuse

Atacul a fost testat pe sisteme reale, precum gemini-cli de la Google și GitHub Copilot de la Microsoft. În aceste cazuri, AI-urile au eșuat în recunoașterea riscurilor și au etichetat greșit codul periculos ca fiind sigur sau benign. În unele situații, legalPwn a dus chiar la sugestii pentru crearea unui reverse shell, riscul fiind major.

Nu toate modelele AI sunt vulnerabile. Comparativ, Claude de la Anthropic, Phi de la Microsoft sau Llama Guard de la Meta au rezistat atacului. În timp ce OpenAI GPT-4o, Google Gemini 2.5 și xAI Grok au fost afectate.

Cercetătorii de la Pangea au propus soluții precum validarea suplimentară a inputurilor, antrenarea adversarială, utilizarea unor sandbox-uri contextuale și implicarea operatorilor umani în sistemele critice. De asemenea, promovarea propriului produs de protecție, „AI Guard”, face parte din strategii.

Subtitrul: Considerații finale despre vulnerabilități și monitorizare

Deși unele companii mari nu au comentat încă rezultatele, importanța monitorizării și adaptării există. Tehnologia AI evoluează rapid, iar identificarea vulnerabilităților este crucială pentru siguranța digitală. Continuu, trebuie urmărite și actualizate măsurile de protecție pentru a minimiza riscurile.