Humanity's Last Exam

Humanity's Last Exam (HLE) est un test de performance pour l’évaluation des modèles de langage composée de 2 500 questions couvrant un large éventail de sujets. Il est créé conjointement par le Center for AI Safety et Scale AI.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article est orphelin. Moins de trois articles lui sont liés (juillet 2025).

Création

Le rapport annuel 2025 de l'IA Index de l'Institute for Human-Centered Artificial Intelligence (HAI) de l'université Stanford cite Humanity's Last Exam comme l'un des « épreuves de référence les plus difficiles » développés en réponse aux épreuves d'IA populaires ayant atteint un « plafond »^[1]. Le test est décrit comme le fruit de l'imagination de Dan Hendrycks, chercheur en apprentissage automatique et directeur du Center for AI Safety, qui déclare avoir été inspiré pour créer le test après une conversation avec Elon Musk, qui pensait que les épreuves de modèles de langage existants, tels que le MMLU, étaient trop faciles. Hendrycks travaille avec Scale AI pour compiler les questions^[2]. Les questions sont collectées auprès d'experts en la matière de diverses institutions à travers le monde^[3]. Les questions sont d'abord filtrées par les principaux modèles d'IA ; si les modèles ne parviennent pas à répondre à la question ou font pire que deviner au hasard sur les questions à choix multiples, ils sont examinés par des experts humains en deux tours et approuvés pour être inclus dans l'ensemble de données. Les auteurs des questions les mieux notées reçoivent un prix en argent, d'un montant de 500 000 dollars américains : 5 000 $ pour chacune des 50 meilleures questions et 500 $ pour les 500 suivantes. Après la publication initiale, un programme de récompenses aux bugs, basé sur les commentaires de la communauté, est lancé pour identifier et supprimer les erreurs majeures dans l'ensemble de données^[4].

Composition

Le test comprend 2 500 questions, dévoilées publiquement. Le document les classe selon les grandes disciplines suivantes : mathématiques (41 %), physique (9 %), biologie/médecine (11 %), sciences humaines/sociales (9 %), informatique/intelligence artificielle (10 %), ingénierie (4 %), chimie (7 %) et autres (9 %). Environ 14 % des questions requièrent la compréhension de textes et d’images, ce qui exige une capacité multimodale des modèles. 24 % des questions sont à choix multiples ; les autres sont des questions à réponse courte et à correspondance exacte. Un ensemble privé est également maintenu pour tester le surapprentissage du test ^[4].

Un exemple de question^[2] :

« Les colibris (Apodiformes) possèdent de manière unique un os ovale bilatéralement apparié, un sésamoïde enchâssé dans la partie caudolatérale de l’aponévrose cruciforme élargie d’insertion du m. depressor caudae. Combien de tendons appariés sont soutenus par cet os sésamoïde ? Répondez par un nombre. »

Résultats

Davantage d’informations Organisation, Modèle ...

Performances de différents modèles sur l'épreuve
Organisation	Modèle	Précision (%) ↑	Erreur d'étalonnage (%) ↓
Google DeepMind	Aperçu de Gemini 2.5 Pro (06-05)	21,64	72
OpenAI	o3 (élevé)	20,32	34
Anthropic	Claude Opus 4	10,72	73
Meta AI	Llama 4 Maverick	5,68	83
Mistral AI	Mistral Medium 3	4,52	77
Amazon Web Services	Nova Pro	4,40	80

Fermer

Davantage d’informations Organisation, Modèle ...

Performances de divers modèles non multimodaux sur le sous-ensemble textuel de l'épreuve
Organisation	Modèle	Précision (%) ↑	Erreur d'étalonnage (%) ↓
DeepSeek	DeepSeek-R1-0528	14,04	78
OpenAI	o3-mini (élevé)	13,37	80
Alibaba Cloud	Qwen3-235B-A22B	11,75	74
Amazon Web Services	Nova Micro	4,41	84

Fermer

Humanity's Last Exam

Création

Composition

Résultats

Références

Liens externes

Related Articles