Microsoft a anunțat recent dezvoltarea unui instrument inovator destinat securității sistemelor de inteligență artificială, menit să identifice prezența „backdoor-urilor” în modelele mari de limbaj open-weight (LLM-uri), adică modele a căror arhitectură și parametri sunt accesibili public. Această inițiativă intervine într-un context în care atacurile cibernetice asupra AI devin tot mai sofisticate, iar nevoia de a asigura integritatea și încrederea în aceste tehnologii scade tot mai mult. Scopul principal al noii soluții este de a oferi cercetătorilor și industriei un instrument eficient, ușor de utilizat și scalabil, care poate contribui la detectarea activităților malițioase ascunse, precum „otrăvirea” modelelor (model poisoning).

### Tehnologia Microsoft pentru detectarea „backdoor-urilor” în modelele AI

Soluția propusă de Microsoft se bazează pe un scanner care analizează comportamentul intern al modelelor de limbaj pentru a identifica eventuale semnale de alarmă. Spre deosebire de metodele tradiționale, această tehnologie nu necesită antrenare suplimentară sau acces la informații prealabile despre natura potențialului atac. În esență, sistemul analizează modul în care anumite inputuri influențează structura internă a modelului și distribuția rezultatelor generate, pentru a detecta eventuale deviații suspecte cu o rată scăzută de alarme false.

Microsoft a identificat trei tipare clare care indică prezența unui backdoor în modelele de limbaj. Primul semnal este reprezentat de un tipar specific de atenție internă, declanșat de fraze-cheie care determină modelul să își concentreze procesarea pe anumite elemente, reducând astfel diversitatea răspunsurilor. Al doilea indicator implică memorizarea unor fragmente din informațiile de otrăvire, inclusiv trigger-ele, ceea ce sugerează o manipulare subtilă, mai ales dacă aceste fragmentări apar în rezultatele pe termen lung. Cel de-al treilea semnal urmărește activarea backdoor-ului prin „declanșatori aproximați”, variații ale frazelor originale care păstrează comportamentul malițios, dar sunt mai greu de detectat.

Scannerul dezvoltat de Microsoft începe prin extragerea conținutului memorat în model, apoi analizează secvențele și aplică evaluări pentru a stabili nivelul de suspiciune pentru fiecare fragment. Toate aceste informații generează o listă ierarhizată a potențialilor trigger-i, facilitând apoi interpretarea și intervenția ulterioară de către specialiști în securitatea AI. Un aspect important este faptul că soluția nu impune modificări asupra modelelor și poate fi aplicată pe o varietate de arhitecturi, precum GPT, ceea ce o face extrem de relevant pentru ecosistemele open-weight.

### Limitări și strategii pentru o securitate sporită în AI

Deși promițătoare, tehnologia de detectare dezvoltată de Microsoft nu este universal valabilă. Nu poate fi aplicată modelelor închise, a căror arhitectură și parametri sunt protejați ca informații proprietare. În plus, metoda funcționează cel mai bine în cazul backdoor-urilor bazate pe declanșatori și răspunsuri deterministe, fiind mai puțin eficientă pentru atacurile mai sofisticate sau pentru cele care implică manipularea dinamică a datelor.

Microsoft recunoaște că această soluție reprezintă doar un pas în lupta pentru securitatea AI, dar un pas important în direcția stabilirii unei strategii concrete. În actualul peisaj tehnologic, sistemele de inteligență artificială nu mai pot fi considerate entități izolate, ci ecosisteme complexe cu multiple puncte de intrare pentru potențiale amenințări. De aceea, compania își propune să extindă și să aprofundeze abordarea de securitate în cadrul programului său Secure Development Lifecycle, inclusiv prin dezvoltarea unor mecanisme pentru prevenirea prompt injection, manipularea datelor și atacuri asupra API-urilor.

Au fost evidențiate multiplele provocări ale sistemelor AI moderne: inputuri provenite simultan din surse externe, actualizări de modele, date din mediul terț și plugin-uri care pot fi exploatate pentru a compromite integritatea sistemului. În acest context, securitatea devine un efort continuu, nu o etapă finală de verificare.

Devreme ce cercetările în domeniu avansează și tehnologia devine tot mai rafinată, instrumentele precum cel dezvoltat de Microsoft reprezintă un pas spre creșterea încrederii în aplicațiile AI. Cu toate că nu există încă o soluție completă pentru toate tipurile de atacuri, această inițiativă semnalează o schimbare în modul în care industria abordează problema securității și integrității sistemelor bazate pe inteligență artificială, o tendință esențială în era digitală.