Arena (plateforme IA)

plateforme web de classement de modèles de langage From Wikipedia, the free encyclopedia

Arena (anciennement Chatbot Arena puis LMArena) est une plateforme web publique qui évalue les grands modèles linguistiques (LLM) en proposant des duels. Les utilisateurs saisissent des questions auxquelles deux modèles anonymes proposent une réponse. Les utilisateurs votent pour le modèle ayant donné la meilleure réponse. L'identité des deux modèles est ensuite révélée et le classement global du site (benchmark) est mis à jour. Les utilisateurs peuvent également directement choisir des modèles à tester[1],[2].

Faits en bref Adresse, Commercial ...
Arena
Adresse arena.ai
Commercial non
Type de site Intelligence Artificielle
Langue Anglais
Lancement 3 Mai 2023
Fermer

Arena est une plateforme connue dans le secteur de l'intelligence artificielle. De grandes entreprises fournissent leurs modèles de langage à grande échelle, tels que GPT-4o, o1, Gemini[3] et Claude[4], et utilisent leurs classements pour les tester avant leurs sorties officielles. L'entreprise chinoise DeepSeek a notamment testé ses prototypes de modèles sur Arena des mois avant que son modèle R1 ne suscite l'intérêt des médias occidentaux[5].

Cependant, la méthodologie d'évaluation de Arena pour les modèles de langage à grande échelle a été examinée par des universitaires, qui ont identifié des limites spécifiques et suggéré des axes d'amélioration. La plateforme a depuis mis en œuvre des mises à jour pour limiter les bais possibles lors des votes.

Références

Liens externes

Related Articles

Wikiwand AI