Studiu recent: industriei AI i se pune presiune crescută

Un nou studiu academic ar putea zdruncina fundația legală a industriei inteligenței artificiale, punând sub semnul întrebării una dintre cele mai importante apărări ale companiilor din domeniu. Cercetătorii de la universități de prestigiu precum Stanford și Yale susțin că unele modele lingvistice avansate ar putea, de fapt, stoca și reproduce texte protejate prin drepturi de autor, nu doar să le utilizeze în procesul de învățare. Această descoperire are potențialul de a schimba regulile jocului în lupta pentru protecția conținutului și responsabilizarea companiilor de AI.

Modelele de limbaj și mitul “învățării” din date

De ani de zile, giganți ai industriei precum OpenAI, Google sau Meta susțin cu tărie că modelele lor nu ar păstra datele utilizate în antrenament, ci doar ar învăța tipare și șabloane din aceste informații. Înălțată pe această premisă, industria a invocat-o frecvent în instanță pentru a-și justifica absența răspunderii legale pentru eventualele încălcări ale drepturilor de autor generate de modelele lor. Sam Altman, CEO-ul OpenAI, a avertizat în repetate rânduri că restricționarea accesului la datele de antrenament ar putea paraliza întreaga industrie, iar deci, și inovația în domeniu.

Ce au descoperit cercetătorii privind reproducerea textelor protejate

Noul studiu contestă această afirmație, arătând că modelele precum GPT-4.1, Gemini 2.5 Pro, Grok 3 și Claude 3.7 pot reproduce fragmente lungi și detaliate din opere protejate, cu o precizie surprinzător de mare. Conform rezultatelor, Claude a redat în proporție de peste 95% pasaje din cărți, inclusiv fragmente întregi, iar Gemini a reprodus extrase din “Harry Potter și Piatra Filozofală”. Mai mult, Claude a generat conținut asemănător cu cel din “1984” de George Orwell, atingând o fidelitate de peste 94%. Aceste rezultate ridică serioase semne de întrebare asupra modului în care aceste modele păstrează și utilizează informații.

Pentru industria AI, aceste constatări amenință să slăbească mordelul legal bazat pe “fair use” sau utilizare echitabilă, compatibil cu legislația din Statele Unite. În prezent, companiile afirmă că modelele lor nu stochează în mod explicit materiale protejate și că orice redare a conținutului se face din procesarea dinamică a datelor, nu din stocarea unei copii. Însă, dacă cercetările demonstrează altfel, acestea riscă sancțiuni și despăgubiri de miliarde de dolari, ceea ce ar putea forța o revizuire rapidă a practicilor industriei.

Implicările pentru legislație și viitorul AI

Dezvăluirile trebuie interpretate în contextul unei legi în continuă evoluție, în care drepturile de autor și protecția datelor devin tot mai complexe. În timp ce companiile de AI continuă să nege orice formă de stocare a materialelor protejate, legitimitatea acestor afirmații pare să fie din ce în ce mai contestată, mai ales în lumina acestor rezultate. Este încă neclar dacă modelele reproduc conținutul dintr-un “stoc” de memorii sau dacă pur și simplu le recreează pe baza unor tipare învățate, dar autorii studiului susțin că diferența este din ce în ce mai greu de făcut.

Pe măsură ce cercetările avansează, echipe din domeniu încep să tragă semnale de alarmă privind riscurile de responsabilitate legală pe care le implică aceste tehnologii. În același timp, legislația în domeniu se adaptează pentru a stabiliza un echilibru între inovație și protecția creatorilor. În următoarele luni și ani, aceste descoperiri ar putea accelera discuțiile despre limitele și responsabilitățile în domeniul inteligenței artificiale, în special în contexte legale și etice.

Odată cu maturizarea tehnologiei, industria va trebui să găsească noi modalități de a demonstra legitimitatea proceselor sale, astfel încât să evite posibilele sancțiuni și să construiască încredere în rândul utilizatorilor și autorităților de reglementare. În egală măsură, nevoia de reguli mai clare devine stringentă, pentru a asigura că evoluția AI nu încalcă drepturile fundamentale ale indivizilor și ale creatorilor de conținut.