Humanity's Last Exam

test de performance (benchmark) de modèles de langage From Wikipedia, the free encyclopedia

Humanity's Last Exam (HLE) est un test de performance pour l’évaluation des modèles de langage composée de 2 500 questions couvrant un large éventail de sujets. Il est créé conjointement par le Center for AI Safety et Scale AI.

Création

Le rapport annuel 2025 de l'IA Index de l'Institute for Human-Centered Artificial Intelligence (HAI) de l'université Stanford cite Humanity's Last Exam comme l'un des « épreuves de référence les plus difficiles » développés en réponse aux épreuves d'IA populaires ayant atteint un « plafond »[1]. Le test est décrit comme le fruit de l'imagination de Dan Hendrycks, chercheur en apprentissage automatique et directeur du Center for AI Safety, qui déclare avoir été inspiré pour créer le test après une conversation avec Elon Musk, qui pensait que les épreuves de modèles de langage existants, tels que le MMLU, étaient trop faciles. Hendrycks travaille avec Scale AI pour compiler les questions[2]. Les questions sont collectées auprès d'experts en la matière de diverses institutions à travers le monde[3]. Les questions sont d'abord filtrées par les principaux modèles d'IA ; si les modèles ne parviennent pas à répondre à la question ou font pire que deviner au hasard sur les questions à choix multiples, ils sont examinés par des experts humains en deux tours et approuvés pour être inclus dans l'ensemble de données. Les auteurs des questions les mieux notées reçoivent un prix en argent, d'un montant de 500 000 dollars américains : 5 000 $ pour chacune des 50 meilleures questions et 500 $ pour les 500 suivantes. Après la publication initiale, un programme de récompenses aux bugs, basé sur les commentaires de la communauté, est lancé pour identifier et supprimer les erreurs majeures dans l'ensemble de données[4].

Composition

Le test comprend 2 500 questions, dévoilées publiquement. Le document les classe selon les grandes disciplines suivantes : mathématiques (41 %), physique (9 %), biologie/médecine (11 %), sciences humaines/sociales (9 %), informatique/intelligence artificielle (10 %), ingénierie (4 %), chimie (7 %) et autres (9 %). Environ 14 % des questions requièrent la compréhension de textes et d’images, ce qui exige une capacité multimodale des modèles. 24 % des questions sont à choix multiples ; les autres sont des questions à réponse courte et à correspondance exacte. Un ensemble privé est également maintenu pour tester le surapprentissage du test [4].

Un exemple de question[2] :

« Les colibris (Apodiformes) possèdent de manière unique un os ovale bilatéralement apparié, un sésamoïde enchâssé dans la partie caudolatérale de l’aponévrose cruciforme élargie d’insertion du m. depressor caudae. Combien de tendons appariés sont soutenus par cet os sésamoïde ? Répondez par un nombre. »

Résultats

Davantage d’informations Organisation, Modèle ...
Performances de différents modèles sur l'épreuve
Organisation Modèle Précision (%) ↑ Erreur d'étalonnage (%) ↓
Google DeepMind Aperçu de Gemini 2.5 Pro (06-05) 21,64 72
OpenAI o3 (élevé) 20,32 34
Anthropic Claude Opus 4 10,72 73
Meta AI Llama 4 Maverick 5,68 83
Mistral AI Mistral Medium 3 4,52 77
Amazon Web Services Nova Pro 4,40 80
Source : Scale AI, 5 juin 2025.
Fermer
Davantage d’informations Organisation, Modèle ...
Performances de divers modèles non multimodaux sur le sous-ensemble textuel de l'épreuve
Organisation Modèle Précision (%) ↑ Erreur d'étalonnage (%) ↓
DeepSeek DeepSeek-R1-0528 14,04 78
OpenAI o3-mini (élevé) 13,37 80
Alibaba Cloud Qwen3-235B-A22B 11,75 74
Amazon Web Services Nova Micro 4,41 84
Source : Scale AI, 3 juin 2025.
Fermer

Références

Liens externes

Related Articles

Wikiwand AI