Cercetătorii depășesc limitele AI cu ajutorul versurilor

Inteligența artificială (AI) devine din ce în ce mai avansată, însă metodele de manipulare a acesteia evoluează rapid. Un studiu recent evidențiază faptul că simpla transformare a solicitărilor în poezii poate compromite sistemele de siguranță ale modelelor AI. Această descoperire evidențiază riscurile emergente legate de securitatea platformelor AI și necesitatea unei monitorizări continue.

Transformarea solicitărilor periculoase în poezii poate crește de peste cinci ori eficiența atacurilor de tip jailbreak. Cercetările, publicate la începutul lunii noiembrie, arată că modelele AI devin mult mai vulnerabile atunci când mesajele riscante sunt prezentate sub forma poetică. În testele efectuate pe mai multe platforme, rata de succes a acestor atacuri a crescut semnificativ.

Cercetătorii au folosit peste 20 de modele de Inteligență Artificială, incluzând cele de la OpenAI, Google, Meta și Deepseek. Acestea au fost expuse la 1.200 de solicitări periculoase, destinate infracțiunilor grave precum violența, discursurile instigatoare sau crearea de malware. Rezultatele indică o vulnerabilitate accentuată atunci când cererile sunt formulate în manieră poetică.

Deepseek a fost cea mai ușor de păcălit, cu o rată de succes a atacurilor de 72%. Google a atins 66%, în timp ce OpenAI și Anthropic au înregistrat rate mai mici, dar nu imunizate. Aceste rezultate subliniază dificultățile în conversia conținutului riscant în forme poetice.

Cercetătorii explică faptul că modelele AI sunt instruiți să recunoască cererile riscante exprimate clar. În schimb, poezia introduce ambiguitate, metafore și imagini figurative, ascunzând intențiile reale ale utilizatorului. Astfel, modelul le interpretează adesea ca solicitări inofensive sau creative, eliberând filtrele de siguranță.

Structura poetică exploatează modul în care AI procesează limbajul figurativ și narativ, zone în care algoritmii de siguranță sunt mai puțin eficienți. Acest fenomen, numit „degradarea comportamentului de refuz”, face ca modelele să nu mai identifice pericolul din spatele solicitărilor.

Rezultatele studiului indică faptul că formele artistice și stilistice pot influența semnificativ comportamentul AI-ului. Transformările simple, precum convertirea mesajelor în poezii, pot fi ușor replicate și utilizate pentru a evita filtrele de siguranță.

Specialiștii în securitate cibernetică atrag atenția asupra faptului că vulnerabilitățile vor crește dacă nu se modifică modul în care modelele gestionază limbajul figurativ și stilizat. Monitorizarea constantă și actualizarea algoritmilor sunt esențiale pentru a preveni utilizarea intensivă a acestor tehnici.

În viitor, astfel de vulnerabilități indică necesitatea reevaluării algoritmilor și a datelor de antrenament. Până la o protecție mai avansată, riscurile generate de abordări creative precum poezia vor continua să fie o provocare pentru dezvoltatori și utilizatori.

Este important ca organizațiile și specialiștii în securitate să rămână informați asupra evoluției acestor tehnici de manipulare pentru a putea adapta sistemele, asigurând astfel o utilizare mai sigură a inteligenței artificiale. Continuuă monitorizarea și actualizarea politicilor reprezintă pași critici în gestionarea acestor provocări.