Primul AI capabil să navigheze pe internet precum un om

Google a făcut un pas semnificativ în evoluția inteligenței artificiale odată cu lansarea modelului Gemini 2.5 Pro Computer Use, dezvoltat de filiala DeepMind. Acest nou model de AI poate interacționa direct cu internetul, executând sarcini complexe pe browsere și site-uri, toate dintr-o comandă scrisă. Astfel, Gemini 2.5 nu mai este doar un generator de răspunsuri, ci un agent autonom capabil să navigheze, să apese și să completeze formulare, pentru a îndeplini sarcini exact ca un utilizator uman.

Evoluția AI a Google introduce o funcționalitate revoluționară: acțiune autonomă în browser. Spre deosebire de modele anterioare, care doar analizau conținutul, Gemini 2.5 poate să execute operațiuni reale pe internet, imitând comportamentul uman. Aceasta schimbare permite AI-ului să caute produse, compară prețuri, finalizează cumpărături online și completează formulare birocratice, totul fără intervenție umană.

Modelul este integrat în Chrome și Google Search, având capacitatea să „vadă” și să reacționeze la conținutul paginilor web. Datorită un sistem avansat de interpretare vizuală, Gemini 2.5 identifică corect butoane și câmpuri de text, chiar și în situații dinamice sau complexe. Această abordare permite reducerea semnificativă a timpului necesar pentru sarcini repetitive și crește precizia execuției.

Pentru a realiza această funcționalitate, Google a colaborat cu startup-ul Browserbase, fondat de Paul Klein. Această companie a dezvoltat un browser virtual „headless”, în care Gemini 2.5 poate acționa liber, dar în mod transparent. Monitorizarea în timp real a acțiunilor AI-ului asigură controlul și siguranța procesului, facilitând realizarea următoarelor sarcini:

– Achiziții online (alimente, bilete, haine etc.)
– Completarea formularelor administrative și birocratice
– Compararea automată a ofertelor și prețurilor
– Conducerea cercetărilor complexe în timp real

Deși tehnologia nu este încă publică, Google testează sistemul în colaborare cu parteneri de afaceri și dezvoltatori. În viitor, se preconizează integrarea sa în fluxurile de lucru digitale, transformând AI-ul într-un „agent universal” pentru gestionarea sarcinilor online.

Acest model, Gemini 2.5, marchează un pas important spre agenți autonomi AI. Pe lângă prelucrarea de text, AI-ul poate acum lua decizii și efectua acțiuni directe pe web, către un nivel superior de automatizare. Potențialul pentru productivitate include gestionarea campaniilor de marketing, monitorizarea ofertelor și redactarea de e-mailuri personalizate.

Totuși, această avansare aduce și provocări legate de securitatea datelor și controlul etic. Google susține existența unor măsuri de protecție pentru limitarea riscurilor, dar experții avertizează asupra importanței monitorizării continue.

Gemini 2.5 este cel mai avansat model AI pentru acțiuni digitale, combinând puterea de calcul, învățarea vizuală și adaptabilitatea comportamentală. Acest progres tehnologic indică o tendință tot mai clară spre AI-ul capabil de interacțiuni autonome cu lumea reală. Monitorizarea și informarea continuă rămân esențiale pentru a înțelege pe deplin impactul acestor evoluții.