MMLU

From Wikipedia, the free encyclopedia

En intelligence artificielle, Measuring Massive Multitask Language Understanding (MMLU) est un test de performance pour évaluer les capacités des grands modèles de langage.

MMLU contient environ 16 000 questions à choix multiples portant sur 57 matières académiques, dont les mathématiques, la philosophie, le droit et la médecine. Il s'agit de l'un des benchmarks les plus couramment utilisés pour comparer les capacités des grands modèles linguistiques, avec plus de 100 millions de téléchargements en [1],[2].

MMLU a été créé par Dan Hendrycks et une équipe de chercheurs en 2020[3]. Il a été conçu pour être plus exigeant que les autres, tels que GLUE, sur lesquels les nouveaux modèles de langage surpassaient déjà la précision humaine. Au moment de la publication de MMLU, la plupart des modèles de langage existants obtenaient un score proche de celui d'un programme répondant aléatoirement (environ 25 %). Le modèle le plus performant à ce moment-là, GPT-3, atteignait une précision de 43,9 %[3]. Les développeurs de MMLU estiment que les experts humains atteignent une précision d'environ 89,8 % dans leur domaine d'expertise[3]. En 2024, certains des modèles de langage les plus avancés, tels que o1, Gemini et Claude 3, ont atteint des scores autour de 90 %[4],[5].

Exemples

Classement

Références

Related Articles

Wikiwand AI