¿Puede la inteligencia artificial dominar todas las materias conocidas por el ser humano?
¿Puede entregarnos la traducción de una antigua escritura palmirena hallada en una lápida romana? ¿Cuántos pares de tendones sostiene un hueso sesamoideo concreto en un colibrí? Éstas son solo dos de las muchas, variadas y desafiantes preguntas que se presentan al último examen de la humanidad (se abrirá en una nueva ventana), o HLE, la prueba aparentemente irresoluble reservada solo a los mejores y más brillantes. Pero no es para nosotros.
Prueba académica definitiva para la IA
No deje que el nombre apocalíptico le engañe. El HLE no trata de que los humanos se vuelvan irrelevantes. Se trata de celebrar lo que sabemos que la IA aún no puede tocar. Se creó para determinar si los modelos de IA como ChatGPT y Gemini pueden responder a las preguntas más difíciles que se les ocurran a los expertos. Básicamente, el HLE se diseñó específicamente para ver exactamente dónde falla la IA actual y qué queda fuera del alcance de la tecnología de IA existente. Este nuevo punto de referencia se presentó en un estudio publicado en la revista «Nature»(se abrirá en una nueva ventana). El HLE es un verdadero esfuerzo de colaboración, con unas dos mil quinientas preguntas de cerca de mil colaboradores afiliados a más de quinientas instituciones de cincuenta países. Los colaboradores son principalmente expertos en ciencias, humanidades y artes, y abarcan más de cien campos altamente especializados. «Lo que hizo extraordinario este proyecto fue la escala», comentó Tung Nguyen, profesor titular del Departamento de Informática e Ingeniería de Texas A&M, en un comunicado de prensa(se abrirá en una nueva ventana). «Esa diversidad es exactamente lo que deja al descubierto las lagunas de los sistemas de IA actuales: quizás irónicamente, son los humanos trabajando juntos». Los sistemas de IA no superaron precisamente esta dura prueba, al menos al principio. Los primeros resultados en 2025 mostraron que muchas de las IA obtuvieron menos del 10 % en el examen. Sin embargo, en marzo de este año, Gemini 3.1 Pro alcanzó un 45,9 % de precisión, seguido de cerca por GPT-5.4 con un 40,3 %.
Superar los límites del conocimiento humano
«Cuando los sistemas de IA empiezan a rendir muy bien en pruebas de referencia humanas, es tentador pensar que se acercan a la comprensión humana», explica Nguyen. «Pero el HLE nos recuerda que la inteligencia no es solo el reconocimiento de patrones: es profundidad, contexto y experiencia especializada». Nguyen contribuyó con setenta y tres de las preguntas -la segunda cifra más alta, y escribió el mayor número de preguntas en matemáticas e informática. «Por ahora, el último examen de la humanidad se erige como una de las evaluaciones más claras de la brecha entre la IA y la inteligencia humana, y a pesar de los rápidos avances tecnológicos, sigue siendo amplia». Nguyen subrayó que cuando la IA supera las métricas tradicionales, la brecha resultante crea retos que van más allá de lo meramente académico. «Sin las herramientas de evaluación precisas, los responsables políticos, los desarrolladores y los usuarios corren el riesgo de malinterpretar lo que los sistemas de IA hacen realmente. Los puntos de referencia sirven de base para medir los avances e identificar los riesgos». El HLE es una prueba de realidad para la IA, que demuestra que nuestro conocimiento único sigue poniendo el listón más alto de lo que cualquier algoritmo puede alcanzar. «No se trata de una carrera contra la IA», concluye Nguyen. «Es un método para entender dónde estos sistemas son fuertes y dónde tienen dificultades. Esa comprensión nos ayuda a construir tecnologías más seguras y fiables. Y, lo que es más importante, nos recuerda por qué la experiencia humana sigue siendo importante».