L’IA peut-elle maîtriser tous les domaines du savoir humain?

Des experts évaluent à quel point l’IA est proche de réussir l’un des tests les plus exigeants jamais conçus.

Seriez-vous capable de traduire une inscription antique en palmyrénien gravée sur une stèle funéraire romaine? Ou de dire combien de tendons appariés sont associés à un os sésamoïde spécifique chez un colibri? Ces questions ne sont que deux exemples parmi les nombreux défis posés dans Humanity’s Last Exam(s’ouvre dans une nouvelle fenêtre) ou HLE, un test réputé insoluble, réservé aux esprits les plus brillants. Mais ce test n’a pas été conçu pour nous.

Test académique ultime pour l’IA

Ne vous fiez pas à son nom apocalyptique. HLE ne vise pas à annoncer l’obsolescence de l’être humain. Il met plutôt en lumière ce que nous savons que l’IA ne parvient pas encore à maîtriser. Il a été conçu pour évaluer la capacité de modèles d’IA tels que ChatGPT ou Gemini à répondre aux questions les plus complexes imaginées par des experts. Concrètement, il sert à identifier précisément les limites actuelles de l’IA et ce qui reste hors de portée des technologies d’IA existantes. Ce nouveau point de référence a été présenté dans une étude publiée dans la revue «Nature»(s’ouvre dans une nouvelle fenêtre). HLE est un véritable effort de collaboration, où environ 2 500 questions ont été soumises par près de 1 000 contributeurs issus de plus de 500 institutions dans 50 pays. Les contributeurs sont majoritairement des experts en sciences, en sciences humaines et en arts, couvrant plus de 100 domaines hautement spécialisés. «Ce qui rend ce projet extraordinaire, c’est son ampleur», explique Tung Nguyen, professeur agrégé au département d’informatique et d’ingénierie de Texas A&M, dans un communiqué(s’ouvre dans une nouvelle fenêtre). «C’est précisément cette diversité qui met en évidence les lacunes des systèmes d’IA actuels, paradoxalement grâce à une collaboration humaine.» Les systèmes d’IA n’ont pas vraiment brillé dans ce test difficile, du moins au début. Les premiers résultats de 2025 révèlent que de nombreuses IA ont obtenu moins de 10 % de bonnes réponses à l’examen. En mars de cette année, Gemini 3.1 Pro a cependant atteint un taux de précision de 45,9 %, suivi de près par GPT-5.4 avec 40,3 %.

Dépasser les limites de la connaissance humaine

«Lorsque les systèmes d’IA obtiennent de très bons résultats sur des tests conçus pour les humains, on pourrait penser qu’ils se rapprochent d’une compréhension comparable à la nôtre», explique Tung Nguyen. «Mais HLE nous rappelle que l’intelligence ne se limite pas à la reconnaissance de motifs: elle repose aussi sur la profondeur, le contexte et l’expertise spécialisée.» Tung Nguyen a contribué à 73 des questions – le deuxième plus grand nombre – et a rédigé le plus grand nombre de questions en mathématiques et en informatique. «Pour l’instant, Humanity’s Last Exam constitue l’une des évaluations les plus claires de l’écart entre l’IA et l’intelligence humaine, un écart qui, malgré les rapides avancées technologiques, reste important.» Tung Nguyen souligne que lorsque l’IA dépasse les indicateurs traditionnels, l’écart qui en résulte pose des enjeux qui vont au-delà du cadre académique. «Sans outils d’évaluation précis, les décideurs politiques, les développeurs et les utilisateurs risquent de mal interpréter les capacités réelles des systèmes d’IA. Les critères de référence sont essentiels pour mesurer les progrès et identifier les risques.» HLE est un test de réalité pour l’IA, prouvant que nos connaissances uniques continuent de fixer un niveau qu’aucun algorithme ne peut atteindre. «Il ne s’agit pas d’une course contre l’IA», conclut Tung Nguyen. «Il s’agit d’une méthode qui nous permet de comprendre ses points forts et ses limites. Cette compréhension nous aide à concevoir des technologies plus sûres et plus fiables. Et, surtout, elle nous rappelle pourquoi l’expertise humaine demeure indispensable.»