El último examen de la humanidad (HLE)

El Último Examen de la Humanidad (HLE del inglés "Humanity's Last Exam") es un banco de pruebas de referencia (benchmark) para modelos de lenguaje que consta de más de 2.500 preguntas de nivel experto en una amplia gama de temas. Fue creado conjuntamente por el Centro para la Seguridad de la IA y Scale AI, y fue diseñado para evaluar las capacidades de razonamiento y una inteligencia similar a la humana, en lugar de limitarse únicamente al reconocimiento de patrones.

Creación

Las pruebas de referencia como el HLE se han utilizado durante mucho tiempo para evaluar las capacidades de razonamiento y aprendizaje de las máquinas.^[1] Las primeras pruebas de referencia, como la Prueba de Turing, medían si las máquinas podían demostrar habilidades de conversación similares a las humanas.^[2] Otras pruebas de referencia tempranas evaluaron la visión artificial, como MNIST para el reconocimiento de dígitos escritos a mano e ImageNet para la clasificación continua de imágenes.^[3] La aparición de los grandes modelos de lenguaje (LLM) en la década de 2020 condujo al avance y la evolución de las pruebas de referencia, con un énfasis en la interpretabilidad, la reproducibilidad y los criterios de evaluación más claros. Las pruebas de referencia recientes de modelos básicos, como MMLU, HellaSwag y ARC Challenge, ilustran este cambio.^[4]

El HLE fue creado para ir a la par del rápido progreso de los LLM, y proporcionar una evaluación adecuada de estos modelos. Los bancos de pruebas anteriores evaluaban a los LLM con una tasa de aciertos cercana al 90%, lo que creó la necesidad de un examen más difícil.^[5] El Informe Anual del Índice de IA 2025 de Stanford HAI cita al HLE como uno de los "bancos de pruebas más desafiantes" desarrollados en respuesta a que los benchmarks populares de IA han alcanzado un punto de "saturación". La prueba ha sido descrita como la creación intelectual Dan Hendrycks, un investigador de aprendizaje automático y director del Centro para la Seguridad de la IA. Se inspiró para crear la prueba después de una conversación con Elon Musk, quien opinaba que los benchmarks de modelos de lenguaje existentes, como el MMLU, eran demasiado fáciles. Hendrycks trabajó con Scale AI para compilar las preguntas.^[6] Las preguntas fueron obtenidas de forma colectiva de expertos en la materia de varias instituciones de todo el mundo.^[7]^[8] Las preguntas fueron filtradas primero por los principales modelos de IA; si los modelos no respondían la pregunta o tenían un rendimiento inferior al de una simple suposición aleatoria en las preguntas de opción múltiple, eran revisados por expertos humanos para comprobar su precisión y redacción en dos rondas, y luego se aprobaba su inclusión en el conjunto de datos. Quienes enviaron las preguntas mejor valoradas se repartieron un premio en dinero total de $500.000 dólares estadounidenses: $5.000 dólares por cada una de las 50 preguntas más destacadas y $500 dólares por las 500 siguientes. Tras el lanzamiento inicial, se lanzó un programa de recompensas por errores basados en la retroalimentación de la comunidad para identificar y eliminar errores importantes en el conjunto de datos.^[8] Los sistemas de IA pueden superar las pruebas más centradas en tareas, pero pocos logran un buen rendimiento en evaluaciones de habilidades más amplias y generales. El HLE se diseñó para evaluar la capacidad de razonamiento, considerada una métrica de la inteligencia humana.^[9]

Composición

El benchmark HLE consta de 2.500 preguntas en el conjunto lanzado públicamente. El artículo clasifica las preguntas en los siguientes temas: matemáticas (41%), física (9%), biología/medicina (11%), humanidades/ciencias sociales (9%), informática/inteligencia artificial (10%), ingeniería (4%), química (7%) y otras (9%). Alrededor del 14% de las preguntas requieren la capacidad de comprender texto e imágenes, es decir, multimodalidad. El 24% de las preguntas son de opción múltiple; el resto son preguntas de respuesta corta y coincidencia exacta. Un conjunto privado también se mantiene para evaluar el sobreajuste del benchmark.^[8]

Una pregunta de ejemplo: ^[6]

Los colibríes, dentro de los Apodiformes, poseen de forma exclusiva un hueso ovalado par, un sesamoideo incrustado en la porción caudolateral de la aponeurosis cruzada y expandida de la inserción del m. depressor caudae. ¿Cuántos tendones pares soporta este hueso sesamoideo? Responde con un número.

Una investigación independiente de FutureHouse, publicada en julio de 2025, sugirió que alrededor del 30% de las respuestas de HLE para preguntas "solo texto" de química y biología podrían ser incorrectas; el equipo de HLE replicó parcialmente los hallazgos y dijo que esperan instituir un proceso de revisión continuo.^[10]

Organización	Modelo	Precisión (%) ↑	Error de calibración (%) ↓
Google DeepMind	Gemini 3 Pro Preview	37.52	57
OpenAI	GPT-5 Pro	31.64	49
Anthropic	Claude Opus 4.5 (Thinking)	25.20	55
Z.ai	GLM 4.5	8.32	79
Meta IA	Llama 4 Maverick	5.68	83
Mistral AI	Mistral Medium 3	4.52	77
Amazon Web Services	Nova Pro	4.40	80

Organización	Modelo	Precisión (%) ↑	Error de calibración (%) ↓
OpenAI	gpt-oss-120b	15.48	76
Alibaba Cloud	Qwen3-235B-A22B-Thinking-2507	15.43	78
Deepseek	DeepSeek-R1-0528	14.04	78
Moonshot AI	Kimi-K2-Instruct	4.68	82
Amazon Web Services	Nova Micro	4.41	84

El último examen de la humanidad (HLE)

Creación

Composición

Resultados

Referencias

Enlaces externos

Related Articles