Czy sztuczna inteligencja może opanować każde zagadnienie znane ludzkości?

Eksperci przewidują, jak niewiele brakuje sztucznej inteligencji do zdania najtrudniejszego sprawdzianu świata.

Czy potrafisz przetłumaczyć starożytny napis w języku palmireńskim znaleziony na rzymskim nagrobku? Ile par ścięgien jest podtrzymywanych przez konkretną kość heterotopową u kolibra? Powyżej znajdują się dwa spośród wielu zróżnicowanych i trudnych pytań zgłoszonych do Humanity’s Last Exam(odnośnik otworzy się w nowym oknie), czyli HLE – najtrudniejszego testu, którego rozwiązanie wydaje się możliwe tylko przez najlepszych i najbystrzejszych. Nie powstał jednak z myślą o ludziach.

Ostateczny sprawdzian akademicki dla sztucznej inteligencji

Niech nie zwiedzie cię apokaliptycznie brzmiąca nazwa. Egzamin ten nie powstał po to, by ostatecznie udowodnić, że ludzie nie są już istotni albo potrzebni. Chodzi o podkreślenie naszej przewagi w dziedzinach, w których sztuczna inteligencja nie ma jeszcze szans. Został opracowany w celu sprawdzenia, czy modele sztucznej inteligencji, takie jak ChatGPT i Gemini, potrafią odpowiedzieć na najtrudniejsze pytania, jakie byli w stanie wymyślić eksperci. Jednym słowem, HLE ma pokazać, w jakich konkretnie obszarach dzisiejsza sztuczna inteligencja zawodzi i co pozostaje poza zasięgiem obecnych technologii. Nowy test został zaprezentowany w artykule opublikowanym na łamach czasopisma „Nature”(odnośnik otworzy się w nowym oknie). Opracowanie HLE jest wynikiem prawdziwej pracy zespołowej, dzięki której powstało około 2 500 pytań przygotowanych przez blisko 1 000 autorów związanych z ponad 500 instytucjami w 50 krajach. Autorami są głównie eksperci z zakresu nauk ścisłych, humanistycznych i sztuki, reprezentujący ponad 100 wysoce wyspecjalizowanych dziedzin. „O wyjątkowości tego projektu przesądziła jego skala” – mówi Tung Nguyen, profesor nadzwyczajny na Wydziale Informatyki i Inżynierii Texas A&M, cytowany w opublikowanym przez uczelnię komunikacie prasowym(odnośnik otworzy się w nowym oknie). „To właśnie ta różnorodność ujawnia luki w dzisiejszych systemach sztucznej inteligencji – choć może wydawać się to ironiczne, chodzi o współpracę między ludźmi”. Systemy sztucznej inteligencji nie wypadły najlepiej w tym trudnym sprawdzianie – przynajmniej na początku. Pierwsze wyniki z 2025 roku wykazały, że wiele systemów sztucznej inteligencji uzyskało na egzaminie wynik poniżej 10 %. Jednak w marcu tego roku model Gemini 3.1 Pro osiągnął dokładność na poziomie 45,9 %, a tuż za nim uplasował się model GPT-5.4 z wynikiem 40,3 %.

Pokonywanie granic ludzkiej wiedzy

„Gdy modele sztucznej inteligencji zaczynają osiągać znakomite wyniki w testach z zakresu wiedzy ludzkiej, łatwo ulec pokusie, by uznać, że zbliżają się one do poziomu ludzkiego rozumowania”, wyjaśnia Nguyen. „HLE przypomina nam jednak, że inteligencja to nie tylko rozpoznawanie wzorców — to także głębia, kontekst i specjalistyczna wiedza”. Nguyen przygotował 73 pytania, co daje mu drugie miejsce pod względem liczby opracowanych pytań. Jest również autorem największej liczby pytań z zakresu matematyki i informatyki. „Obecnie Humanity’s Last Exam stanowi jeden z najdokładniejszych sposobów oceny różnicy między sztuczną inteligencją a ludzkim umysłem i pomimo szybkiego postępu technologicznego różnica ta pozostaje widoczna”. Nguyen zwrócił uwagę, że gdy sztuczna inteligencja osiąga wyniki lepsze od tradycyjnych wskaźników, powstająca w ten sposób przepaść rodzi wyzwania, które wykraczają poza sferę czysto akademicką. „Bez precyzyjnych narzędzi oceny decydenci, twórcy oprogramowania i użytkownicy są narażeni na ryzyko błędnej interpretacji rzeczywistych możliwości systemów sztucznej inteligencji”. „Wskaźniki i testy stanowią punkt odniesienia pozwalający na mierzenie postępów i identyfikowanie zagrożeń”. HLE stanowi sprawdzian dla sztucznej inteligencji, który dowodzi, że nasza wyjątkowa wiedza wciąż ustawia poprzeczkę powyżej poziomu osiągalnego przez jakikolwiek algorytm. „Nie chodzi tu o wyścig przeciwko sztucznej inteligencji”, wyjaśnia Nguyen. „To sposób na zrozumienie, w jakich obszarach systemy radzą sobie dobrze, a w jakich występują trudności. Ta wiedza pomaga nam tworzyć bezpieczniejsze i bardziej niezawodne technologie. Co ważne, przypomina nam także, dlaczego wiedza i doświadczenie ludzi wciąż są istotne”.