Humanity's Last Exam
test de performance (benchmark) de modèles de langage
From Wikipedia, the free encyclopedia
Humanity's Last Exam (HLE) est un test de performance pour l’évaluation des modèles de langage composée de 2 500 questions couvrant un large éventail de sujets. Il est créé conjointement par le Center for AI Safety et Scale AI.
Création
Le rapport annuel 2025 de l'IA Index de l'Institute for Human-Centered Artificial Intelligence (HAI) de l'université Stanford cite Humanity's Last Exam comme l'un des « épreuves de référence les plus difficiles » développés en réponse aux épreuves d'IA populaires ayant atteint un « plafond »[1]. Le test est décrit comme le fruit de l'imagination de Dan Hendrycks, chercheur en apprentissage automatique et directeur du Center for AI Safety, qui déclare avoir été inspiré pour créer le test après une conversation avec Elon Musk, qui pensait que les épreuves de modèles de langage existants, tels que le MMLU, étaient trop faciles. Hendrycks travaille avec Scale AI pour compiler les questions[2]. Les questions sont collectées auprès d'experts en la matière de diverses institutions à travers le monde[3]. Les questions sont d'abord filtrées par les principaux modèles d'IA ; si les modèles ne parviennent pas à répondre à la question ou font pire que deviner au hasard sur les questions à choix multiples, ils sont examinés par des experts humains en deux tours et approuvés pour être inclus dans l'ensemble de données. Les auteurs des questions les mieux notées reçoivent un prix en argent, d'un montant de 500 000 dollars américains : 5 000 $ pour chacune des 50 meilleures questions et 500 $ pour les 500 suivantes. Après la publication initiale, un programme de récompenses aux bugs, basé sur les commentaires de la communauté, est lancé pour identifier et supprimer les erreurs majeures dans l'ensemble de données[4].
Composition
Le test comprend 2 500 questions, dévoilées publiquement. Le document les classe selon les grandes disciplines suivantes : mathématiques (41 %), physique (9 %), biologie/médecine (11 %), sciences humaines/sociales (9 %), informatique/intelligence artificielle (10 %), ingénierie (4 %), chimie (7 %) et autres (9 %). Environ 14 % des questions requièrent la compréhension de textes et d’images, ce qui exige une capacité multimodale des modèles. 24 % des questions sont à choix multiples ; les autres sont des questions à réponse courte et à correspondance exacte. Un ensemble privé est également maintenu pour tester le surapprentissage du test [4].
Un exemple de question[2] :
« Les colibris (Apodiformes) possèdent de manière unique un os ovale bilatéralement apparié, un sésamoïde enchâssé dans la partie caudolatérale de l’aponévrose cruciforme élargie d’insertion du m. depressor caudae. Combien de tendons appariés sont soutenus par cet os sésamoïde ? Répondez par un nombre. »
Résultats
| Organisation | Modèle | Précision (%) ↑ | Erreur d'étalonnage (%) ↓ |
|---|---|---|---|
| Google DeepMind | Aperçu de Gemini 2.5 Pro (06-05) | 21,64 | 72 |
| OpenAI | o3 (élevé) | 20,32 | 34 |
| Anthropic | Claude Opus 4 | 10,72 | 73 |
| Meta AI | Llama 4 Maverick | 5,68 | 83 |
| Mistral AI | Mistral Medium 3 | 4,52 | 77 |
| Amazon Web Services | Nova Pro | 4,40 | 80 |
| Organisation | Modèle | Précision (%) ↑ | Erreur d'étalonnage (%) ↓ |
|---|---|---|---|
| DeepSeek | DeepSeek-R1-0528 | 14,04 | 78 |
| OpenAI | o3-mini (élevé) | 13,37 | 80 |
| Alibaba Cloud | Qwen3-235B-A22B | 11,75 | 74 |
| Amazon Web Services | Nova Micro | 4,41 | 84 |
