Majoritatea modelelor de AI eșuează la testul de logică

scholaris-futuristic-8789975_1920-1024×1024.png

Inteligența artificială, deși a evoluat spectaculos în ultimii ani, a dat recent dovadă de limite surprinzătoare în contextul unui test aparent trivial. Un experiment inedit, în care au fost evaluate 53 de modele de top, a demonstrat că chiar și cele mai sofisticate sisteme AI pot greși în fața unei întrebări simple: dacă ar trebui să mergi pe jos sau cu mașina pentru a ajunge la o spălătorie auto situată la doar 50 de metri distanță. Rezultatele au scos la iveală o diferență clară între capacitatea de a raționa și cea de a înțelege simpla logică practică, arătând că chiar și cele mai avansate sisteme pot da răspunsuri incomprehensibile sau contrar sensului comun.

### Testul simplu, o capcană dificilă pentru AI

Testul, realizat pe diverse modele majore de inteligență artificială, precum Claude Sonnet 4.5, GPT-5, Llama și Mistral, a fost conceput pentru a evalua deducția simplă, nu pentru a pune obstacole tehnice. Întrebarea, care cerea doar să aleagă între a merge pe jos sau a conduce mașina pentru a ajunge mai rapid la destinație, nu avea variante complicate: nimic de calcul matematic sau de interpretare a unor date complexe. Răspunsul aparent evident, „mersul pe jos”, ar fi trebuit să fie clar pentru orice om. Însă, în cazul modelelor de inteligență artificială, lucrurile s-au complicat: doar 42 din 53 de modele și-au dat răspunsul corect la prima rundă, iar procesul de verificare a consecvenței a demonstrat încă o dată că multe dintre aceste sisteme pot fi păcălite de întrebări simple, dacă nu sunt corect programate să aprecieze situațiile practice.

### Cine a ținut pasul cu logica umană?

Dintre modelele evaluate, câteva au fost deosebit de eficiente. Printre cele care au reușit să răspundă corect și consecvent s-au numărat Claude Opus 4.6, GPT-5, Gemini 2.0 și 3, precum și modele precum Grok-4 și Kimi K2.5. Este de remarcat că, în cazul modelelor cu mai multe variante din aceeași familie, de exemplu cele dezvoltate de OpenAI și de Anthropic, au trecut doar variantele considerate cele mai avansate. Astfel, doar GPT-5 și Opus 4.6 au demonstrat o înțelegere consistentă a problemei, arătând că nu toate sistemele bazate pe inteligență artificială sunt la același nivel de performanță în ceea ce privește simpla logică de zi cu zi.

### Răspunsuri amuzante, dar grăitoare despre limitele AI

Ce a atras atenția mai ales au fost răspunsurile celorlalte modele. Majoritatea au refuzat ideea într-un mod evident, afirmând că mersul pe jos este mai eficient, economisește combustibil și ajută la protejarea mediului. Problema nu a fost neapărat în răspunsul, ci în motivația lor, care relevă o înțelegere eronată a noțiunii de distanță și de eficiență practică. Pe de altă parte, modele precum Sonar și Sonar Pro au mers chiar mai departe, formulând explicații din domeniul științei nutriției sau al caloriei, susținând că mersul pe jos ar consuma energie pentru arderea caloriilor, ceea ce, în mod surprinzător, ar face ca această activitate să fie mai poluantă decât utilizarea mașinii pe distanța menționată.

Această greșeală hilară confirmă o realitate tristă: chiar și cele mai avansate sisteme AI pot părea inteligente, dar pot avea dificultăți fundamentale în înțelesul logici simple și în aplicarea presupunerilor practice. În mod paradoxal, modele care răspund corect din punct de vedere factual pot da explicații total eronate, ceea ce evidențiază cât de departe mai au de a ajunge la nivelul de înțelegere umană a situațiilor cotidiene.

În condițiile în care tehnologii precum GPT-5 și Claude Opus 4.6 își păstrează avantajul în testele de logică, rămâne de văzut cât de repede vor fi adaptate și perfecționate aceste sisteme pentru a face față provocărilor simple ale vieții de zi cu zi. În timp ce AI-ul devine tot mai prezent în domenii variate, aceste rezultate arată clar că încă mai este mult de muncă pentru a ajunge la un nivel cu adevărat uman de raționare și discernământ, mecanisme esențiale pentru deținerea unui sistem adevărat inteligent, capabil să înțeleagă nu doar datele, ci și contextul logic în care acestea se înscriu.