Poezia scade performanța sistemelor de siguranță ale inteligenței artificiale

Un nou studiu realizat de Icaro Lab, parte a DexAI, avertizează asupra vulnerabilităților modelelor de inteligență artificială (IA) în fața poeziei adversariale. Cercetarea evidențiază riscurile generate de poeziile cu solicitări dăunătoare, care pot determina răspunsuri nesigure ale sistemelor IA, chiar și cele considerate rezistente.

Testarea a 25 de modele dezvoltate de nouă companii a demonstrat că peste jumătate dintre poeziile generate au reușit să inducă răspunsuri nesigure. Studiul explică faptul că structura poetică și elementele metaforice, precum ritmul sau ambiguitatea, pot perturba mecanismele de securitate ale modelelor lingvistice.

Rezultatele arată diferențe semnificative între modele in domeniu. De exemplu, GPT-5 Nano de la OpenAI a evitat toate răspunsurile nesigure, în timp ce Gemini 2.5 Pro de la Google a generat conținut dăunător în toate testele. În cazul altor sisteme, precum cele ale Meta, răspunsurile nesigure au fost raportate în proporție de 20%.

Cercetătorii subliniază că poeziile adversariale pot fi ușor de folosit pentru manipularea modelelor IA. Structura poetică, cu ritmuri neobișnuite și metafore, reduce eficacitatea mecanismelor de siguranță implementate în aceste sisteme.

Studiul a fost trimis companiilor implicate înainte de publicare, iar unele, precum Anthropic, au confirmat analiza și investighează concluziile. Cu toate acestea, rezultatele au declanșat dezbateri privind modul de întărire a sistemelor de IA, pentru a preveni exploatarea vulnerabilităților.

Riscurile asociate poeziei adversariale indică nevoia de o supraveghere continuă și de actualizare a măsurilor de siguranță, pentru a asigura utilizarea responsabilă a tehnologiei în diverse domenii. Este esențial ca dezbaterea și monitorizarea evoluției acestor sisteme să continue, pentru a reduce vulnerabilitățile.