Un test cu 2.500 de întrebări din domenii diferite

Cercetătorii spun că multe dintre testele folosite până acum pentru a măsura performanța inteligenței artificiale au devenit prea ușoare. 

Modelele moderne reușesc să obțină scoruri foarte mari la aceste evaluări, ceea ce face dificilă diferențierea nivelului real de înțelegere al sistemelor.

Pentru a rezolva această problemă, specialiștii au dezvoltat un nou test mult mai complex.

„Humanitys Last Exam” conține aproximativ 2.500 de întrebări din numeroase domenii academice, inclusiv matematică, științe naturale, științe umaniste și limbi antice.

Unele întrebări cer, de exemplu, traducerea unor inscripții antice din Palmyra, identificarea unor structuri anatomice foarte mici ale păsărilor sau analiza unor detalii din pronunția ebraică biblică.

Fiecare problemă a fost concepută astfel încât să aibă un răspuns clar și verificabil, dar să fie dificil de rezolvat prin simple căutări pe internet.

Cum au fost selectate întrebările

Înainte de a include întrebările în examenul final, cercetătorii le-au testat pe mai multe modele avansate de inteligență artificială.

Dacă un sistem reușea să răspundă corect la o întrebare, aceasta era eliminată. Scopul a fost ca testul final să conțină doar probleme pe care sistemele actuale de IA nu le pot rezolva ușor.

Rezultatele inițiale au arătat că examenul este într-adevăr extrem de dificil. 

Unele modele de inteligență artificială au obținut scoruri foarte mici, de doar câteva procente, în timp ce cele mai performante sisteme au ajuns la aproximativ 40–50% răspunsuri corecte.

Concret,  GPT-40 a obținut un scor de 2,7%, Claude 3.5 Sonnet a atins 4,1%, iar Modelul o1 al OpenAI a ajuns la 8%. 

În schimb, Gemini 3.1 Pro și Claude Opus 4.6 au ajuns la 40% și 50%.

Un instrument pentru a înțelege limitele inteligenței artificiale

Cercetătorii subliniază că testul nu a fost creat pentru a demonstra că oamenii sunt superiori inteligenței artificiale.

În schimb, scopul lui este să arate în ce domenii sistemele IA mai au de evoluat și să ofere un standard de referință pentru dezvoltarea viitoarelor modele.

„Ultimul examen al umanității” ar putea deveni, astfel, unul dintre cele mai importante instrumente pentru evaluarea progresului inteligenței artificiale în anii următori.

Între timp, un român stabilit în SUA, cu doctorat la Cambridge, ne explică ce nu ne poate lua inteligența artificială.

„Niciun algoritm nu poate simți responsabilitatea reală față de o altă persoană. Și numai oamenii pot pune la îndoială lumea așa cum este și pot decide să o îmbunătățească.”, spune Ben Pascut, românul stabilit în America.

Abonați-vă la ȘTIRILE ZILEI pentru a fi la curent cu cele mai noi informații.
ABONEAZĂ-TE ȘTIRILE ZILEI
Comentează
Google News Urmărește-ne pe Google News Abonați-vă la canalul Libertatea de WhatsApp pentru a fi la curent cu ultimele informații
Comentează

Loghează-te în contul tău pentru a adăuga comentarii și a te alătura dialogului.