Arena (plateforme IA)
plateforme web de classement de modèles de langage
From Wikipedia, the free encyclopedia
Arena (anciennement Chatbot Arena puis LMArena) est une plateforme web publique qui évalue les grands modèles linguistiques (LLM) en proposant des duels. Les utilisateurs saisissent des questions auxquelles deux modèles anonymes proposent une réponse. Les utilisateurs votent pour le modèle ayant donné la meilleure réponse. L'identité des deux modèles est ensuite révélée et le classement global du site (benchmark) est mis à jour. Les utilisateurs peuvent également directement choisir des modèles à tester[1],[2].
| Arena | |
| Adresse | arena.ai |
|---|---|
| Commercial | non |
| Type de site | Intelligence Artificielle |
| Langue | Anglais |
| Lancement | 3 Mai 2023 |
| modifier |
|
Arena est une plateforme connue dans le secteur de l'intelligence artificielle. De grandes entreprises fournissent leurs modèles de langage à grande échelle, tels que GPT-4o, o1, Gemini[3] et Claude[4], et utilisent leurs classements pour les tester avant leurs sorties officielles. L'entreprise chinoise DeepSeek a notamment testé ses prototypes de modèles sur Arena des mois avant que son modèle R1 ne suscite l'intérêt des médias occidentaux[5].
Cependant, la méthodologie d'évaluation de Arena pour les modèles de langage à grande échelle a été examinée par des universitaires, qui ont identifié des limites spécifiques et suggéré des axes d'amélioration. La plateforme a depuis mis en œuvre des mises à jour pour limiter les bais possibles lors des votes.