Può l’intelligenza artificiale padroneggiare ogni materia conosciuta dall’uomo?

Gli esperti prevedono quanto l’intelligenza artificiale sia vicina a superare il test più difficile del mondo.

Può fornire una traduzione di un’antica scrittura palmirena trovata su una lapide romana? Quanti tendini appaiati sono sostenuti da un particolare osso sesamoide in un colibrì? Queste sono solo due delle tante domande, varie e impegnative, presentate al Humanity’s Last Exam(si apre in una nuova finestra), o HLE, il test apparentemente irrisolvibile riservato solo ai migliori e ai più brillanti. Ma non è destinato a noi.

L’ultimo test accademico per l’IA

Non lasciatevi ingannare dal nome apocalittico. L’HLE non riguarda l’irrilevanza degli esseri umani. Si tratta di celebrare ciò che sappiamo e che l’intelligenza artificiale non può ancora toccare. È stato creato per determinare se i modelli di intelligenza artificiale come ChatGPT e Gemini sono in grado di rispondere alle domande più difficili proposte dagli esperti. In sostanza, HLE è stato progettato specificamente per vedere esattamente dove l’odierna intelligenza artificiale fallisce e cosa rimane fuori dalla portata della tecnologia IA esistente. Questo nuovo parametro di riferimento è stato introdotto in uno studio pubblicato sulla rivista «Nature»(si apre in una nuova finestra). HLE è un vero e proprio sforzo collaborativo, con circa 2 500 domande di quasi 1 000 collaboratori affiliati a oltre 500 istituzioni in 50 paesi. I collaboratori sono principalmente esperti di scienze, scienze umane e arti e coprono più di 100 campi altamente specializzati. «Ciò che ha reso straordinario questo progetto è stata la scala», ha commentato Tung Nguyen, professore associato presso il Dipartimento di Informatica e Ingegneria della Texas A&M, in un comunicato stampa(si apre in una nuova finestra). «Questa diversità è esattamente ciò che mette a nudo le lacune degli attuali sistemi di IA: forse, ironia della sorte, sono gli esseri umani che lavorano insieme». I sistemi di intelligenza artificiale non hanno superato questa dura prova, almeno non all’inizio. I primi risultati nel 2025 hanno mostrato che molte IA hanno ottenuto un punteggio inferiore al 10 % nell’esame. Tuttavia, nel marzo di quest’anno, Gemini 3.1 Pro ha raggiunto un’accuratezza del 45,9 %, seguito da vicino da GPT-5.4 con il 40,3 %.

Superare i confini della conoscenza umana

«Quando i sistemi di intelligenza artificiale iniziano a ottenere risultati estremamente buoni su benchmark umani, si è tentati di pensare che si stiano avvicinando a una comprensione di livello umano», ha spiegato l’esperto. «Ma HLE ci ricorda che l’intelligenza non è solo riconoscimento di schemi, ma anche profondità, contesto e competenze specialistiche». Il ricercatore ha contribuito a 73 delle domande - il secondo numero più alto - e ha scritto il maggior numero di domande in matematica e informatica. «Per ora, Humanity’s Last Exam è una delle valutazioni più chiare del divario tra l’IA e l’intelligenza umana e, nonostante i rapidi progressi tecnologici, esso rimane ampio». L’autore ha sottolineato che quando l’IA supera le metriche tradizionali, il divario che ne deriva crea sfide che non sono solo accademiche. «Senza strumenti di valutazione accurati, i responsabili politici, gli sviluppatori e gli utenti rischiano di interpretare in modo errato ciò che i sistemi di IA possono effettivamente fare. I benchmark costituiscono la base per misurare i progressi e identificare i rischi». HLE è una prova di realtà per l’IA, che dimostra come la nostra conoscenza unica sia ancora superiore a quella che qualsiasi algoritmo può raggiungere. «Non si tratta di una gara contro l’intelligenza artificiale», ha concluso Nguyen. «È un metodo per capire dove questi sistemi sono forti e dove fanno fatica. Questa comprensione ci aiuta a costruire tecnologie più sicure e affidabili. E, cosa importante, ci ricorda perché la competenza umana è ancora importante».