Kann KI jedes bekannte Themengebiet meistern?
Könnten Sie eine römische Grabesinschrift in altem Palmyrenisch übersetzen? Wüssten Sie, wie viele Sehnenpaare des Kolibris von einem einzelnen Sesambein gestützt werden? Dies sind nur zwei der vielen unterschiedlichen und herausfordernden Fragen der letzten Prüfung der Menschheit oder Humanity's Last Exam, HLE(öffnet in neuem Fenster), dem scheinbar unlösbaren Test, der nur durch die besten und klügsten Köpfe bestanden werden kann. Der Test ist jedoch nicht an den Menschen gerichtet.
Der ultimative akademische Test für KI
Lassen Sie sich von der apokalyptischen Bezeichnung nicht täuschen. Bei HLE geht es nicht darum, dass der Mensch irrelevant werden wird. Es geht vielmehr darum, das menschliche Wissen zu feiern, das künstliche Intelligenz noch nicht einmal ansatzweise erfassen kann. Der Test wurde entwickelt, um festzustellen, ob KI-Modelle wie ChatGPT und Gemini die schwierigsten Fragen beantworten können, die Fachleuten in den Sinn kommen. Der HLE soll insbesondere genau ersichtlich machen, wo die heutige KI versagt und was für die bestehende KI-Technologie derzeit unerreichbar ist. Dieser neue Vergleichstest wurde in einer Studie vorgestellt, die in der Fachzeitschrift „Nature“(öffnet in neuem Fenster) veröffentlicht ist. Der HLE mit etwa 2 500 Fragen von fast 1 000 Teilnehmenden aus über 500 Einrichtungen in 50 Ländern ist ein echtes Gemeinschaftsprojekt. Die Beiträge stammen hauptsächlich von Fachleuten aus den Natur-, Geistes- und Kunstwissenschaften und decken mehr als 100 hochspezialisierte Themengebiete ab. „Was dieses Projekt so außergewöhnlich machte, war der Umfang“, kommentierte Tung Nguyen, außerordentlicher Professor am Fachbereich für Informatik und Ingenieurwesen der Texas A&M, in einer Pressemitteilung(öffnet in neuem Fenster). „Ebendiese Vielfalt deckt die Lücken in den heutigen KI-Systemen auf – ironischerweise ist es vielleicht die menschliche Zusammenarbeit.“ KI-Systeme haben diesen Härtetest nicht gerade mit Bravour bestanden – zumindest nicht am Anfang. Die ersten Ergebnisse im Jahr 2025 zeigten, dass viele KIs weniger als 10 % der Testfragen richtig beantworteten. Im März dieses Jahres erreichte Gemini 3.1 Pro jedoch 45,9 % richtige Ergebnisse, dicht gefolgt von GPT-5.4 mit 40,3 %.
Die Grenzen des menschlichen Wissens überschreiten
„Wenn KI-Systeme bei menschlichen Vergleichstests extrem gut abschneiden, könnte man meinen, dass sie sich dem menschlichen Verständnis annähern“, erklärt Nguyen. „Der HLE erinnert uns jedoch daran, dass es bei Intelligenz nicht nur um Mustererkennung geht – es geht um tiefes, kontextuelles und fachliches Wissen.“ Nguyen steuerte 73 der Fragen bei – die zweithöchste Zahl – und verfasste die meisten Fragen in Mathematik und Informatik. „Im Moment liefert Humanity's Last Exam eine der klarsten Einschätzungen der Lücke zwischen KI und menschlicher Intelligenz, die trotz des rasanten technologischen Fortschritts nach wie vor immens ist.“ Nguyen betonte, dass die bei einem Übertreffen der traditionellen Vergleichsergebnisse durch KI entstehende Kluft zu weit mehr als rein akademischen Herausforderungen führe. „Ohne genaue Bewertungsinstrumente sind die politische Entscheidungsfindung, Entwicklung und Nutzung mit einer potenziellen Fehleinschätzung der tatsächlichen Möglichkeiten von KI-Systemen konfrontiert. Vergleichstests bilden die Grundlage für die Messung von Fortschritten und die Identifizierung von Risiken.“ Der HLE ist ein Realitätscheck für KI und beweist, dass unser einzigartiges Wissen nach wie vor den bislang unübertroffenen Vergleichsmaßstab für alle Algorithmen bildet. „Dies ist kein Wettlauf gegen KI“, lautet das Fazit von Nguyen. „Es ist eine Methode, um herauszufinden, wo diese Systeme Stärken und Schwächen haben. Dieses Verständnis hilft uns dabei, sicherere und zuverlässigere Technologien zu entwickeln. Und vor allem erinnert es uns daran, warum menschliches Fachwissen nach wie vor wichtig ist.“