Wikimedia Deutschland a anunțat recent lansarea unui proiect inovator menit să optimizeze modul în care modelele de inteligență artificială accesează și utilizează cunoștințele din Wikipedia. Noul proiect, denumit Wikidata Embedding Project, integrează tehnologia de căutare semantică bazată pe vectori, facilitând întelegerea mai profundă a relațiilor și sensurilor cuvintelor pentru AI.

Crearea unei baze de date ce acoperă aproape 120 de milioane de intrări din Wikipedia și platformele asociate reprezintă o evoluție semnificativă în domeniul procesării limbajului natural. Aceasta oferă dezvoltatorilor de AI o resursă mai ușor de integrat în sisteme complexe, comparativ cu instrumentele anterioare, care permiteau doar căutări simple sau interogări în limbaj specific, precum SPARQL. Noul proiect facilitează răspunsuri în limbaj natural, compatibile cu tehnologia retrieval-augmented generation.

Astfel, sistemele AI pot accesa informații contextualizate, ceea ce permite o interpretare mai precisă. De exemplu, o întrebare despre „om de știință” va genera rezultate relevante nu doar pentru indivizi celebri, ci și pentru subcategorii specializate, precum cercetători și domenii conexe. Baza de date include și traduceri în diverse limbi, imagini aprobate de Wikimedia și termeni asociați pentru o înțelegere mai complexă.

Dezvoltat în colaborare cu Jina.AI și DataStax, proiectul este disponibil public pe platforma Toolforge. Pe 9 octombrie 2025, va avea loc un webinar dedicat dezvoltatorilor interesați de utilizarea eficientă a acestei resurse.

Această inițiativă vine într-un moment în care cererea pentru seturi de date de înaltă calitate în domeniul AI crește. În timp ce sursele precum Common Crawl oferă cantitate, ele nu asigură întotdeauna acuratețea, în timp ce datele Wikipedia, verifycate de comunitate, pot oferi o bază mai solidă pentru aplicații ce necesită precizie.

De asemenea, având în vedere controversele legate de utilizarea conținutului protejat de drepturi de autor în antrenarea modelelor lingvistice, soluțiile deschise și colaborative ca Wikidata Embedding reprezintă o alternativă durabilă și transparentă. În august 2025, compania Anthropic a ales să plătească 1,5 miliarde de dolari pentru a soluționa un proces privind utilizarea neautorizată a unor lucrări.

În ansamblu, inițiativa ilustrată de Wikimedia subliniază importanța creării unor resurse deschise și colaborative pentru progresul AI. În continuare, monitorizarea evoluțiilor din domeniu rămâne esențială pentru a înțelege impactul real asupra tehnologiei și societății.