Moonshot AI
From Wikipedia, the free encyclopedia
Moonshot AI est une entreprise chinoise d'intelligence artificielle fondée en 2023 à Pékin, et considérée comme l'un des « AI Tigers » du pays (avec DeepSeek et MiniMax)[1]. L'objectif déclaré du fondateur était de développer des modèles fondamentaux capables de mener à l'intelligence artificielle générale (IAG), reposant sur trois jalons : fenêtre contextuelle très longues ; modèle du monde multimodal et architecture générale auto‑améliorative sans intervention humaine[2].
Anthropic affirme, en , que Moonshot AI (ainsi que DeepSeek et MiniMax) ont mené une vaste attaque, via des milliers de comptes frauduleux, visant à extraire illégalement les capacités avancées de son intelligence artificielle Claude, au risque de produire de graves défauts d'alignement des intelligences artificielles ainsi construites.
Créée par trois anciens étudiants qui se sont connus à l'université Tsinghua (Yang Zhilin, Zhou Xinyu et Wu Yuxin), elle tire son nom de l'album The Dark Side of the Moon, sorti 50 ans plus tôt et cher à Yang Zhilin[3],[4].
L'entreprise s'est fait connaître en (moment de la grande émergence de ChatGPT, en lançant son premier chatbot, Kimi, capable de traiter jusqu'à 200 000 caractères chinois. En , des rumeurs évoquent une entrée sur le marché américain avec des produits comme Ohai ou Noisee, ce que Moonshot dément[5]. En , elle publie Kimi K2.5, version multimodale dotée d'un encodeur visuel MoonViT de 400 millions de paramètres, permettant de traiter images et vidéos et d'exécuter des tâches agentiques complexes[6], trois mois seulement après la sortie de K2[7]. En , Anthropic accuse Moonshot d'avoir utilisé des milliers de comptes frauduleux pour générer des millions de conversations avec Claude afin d'entraîner ses propres modèles[8].
En , Anthropic dénonce une vaste campagne d'extraction illégale de données orchestrée par Moonshot AI avec DeepSeek et MiniMax. L'opération, de type attaque par distillation, à permis à l'entreprise via des milliers de comptes frauduleux de soumettre plusieurs millions de requêtes ciblées aux modèles de la famille Claude, de manière à capturer les capacités avancées de raisonnement et de programmation d'Anthropic, « en violation de nos conditions d’utilisation et des restrictions d’accès régionales ». Les preuves de ce détournement incluent l'analyse de métadonnées liant directement les requêtes à des chercheurs seniors de ces trois entreprises, et la détection de réseaux de proxys coordonnés.
Anthropic alerte la communauté internationale quant aux risques de sécurité nationale, expliquant que les modèles dérivés de cette distillation échappent aux protocoles de modération originaux, ce qui ouvrant la voie à des usages malveillants des modèles ainsi construits[9]. Cette affaire survient dans un contexte de tensions croissantes entre les laboratoires américains de la Silicon Valley et les acteurs de l'IA en Chine, ici pris en flagrant délit de contournement. Des contre-mesures sont prises par Anthropic, qui, en , appelle à une « réponse coordonnée entre l’industrie de l’IA, les fournisseurs cloud et les décideurs politiques »[10],[9].
Finances, investissements
Moonshot AI, valorisée à 300 millions de dollars lors d'un premier apport de 60 millions alors qu'elle employait 40 personnes[11],[4], a rapidement attiré les principaux investisseurs technologiques chinois. En , un tour de table d'un milliard de dollars mené par Alibaba Group porte sa valorisation à 2,5 milliards. En , Tencent et Gaorong Capital participent à une levée de 300 millions, faisant grimper la valorisation à 3,3 milliards[12]. En , l'entreprise serait sur le point de finaliser un nouveau financement d'environ 600 millions, conduit par IDG Capital avec le soutien d'investisseurs existants dont Tencent, pour une valorisation pré‑money estimée à 3,8 milliards[13],[14].
Produits, recherches
Moonshot AI développe la famille de modèles Kimi, lancée en comme principal concurrent d'Ernie Bot ; ce chatbot, initialement limité à 200 000 caractères, atteint en une capacité revendiquée de deux millions de caractères, mais subit alors une panne de deux jours due à l'afflux d'utilisateurs[15],[16].
Classé troisième en utilisateurs actifs en , Kimi recule à la septième place en [17]. En , Kimi K1.5 est publié, Moonshot affirmant qu'il égale OpenAI o1 en mathématiques, en code et en raisonnement multimodal[18]. En , Moonshot diffuse les poids ouverts de Kimi K2, un modèle MoE d'un billion de paramètres (32 milliards actifs), entraîné sur 15,5 billions de tokens et publié sous licence MIT modifiée[19],[20],[21].
K2, téléchargeable et modifiable connaît un pic de popularité immédiat et se distingue en programmation (LiveCodeBench), rivalisant parfois avec ses équivalents occidentaux[22].
Le , Kimi‑K2‑Instruct‑0905 améliore les performances en tâches agentiques et double la fenêtre de contexte à 256 000 tokens[23],[24].
En , Moonshot publie Kimi K2 Thinking, version ouverte orientée raisonnement avancé, dotée d'une architecture MoE d'un billion de paramètres (32 milliards actifs), d'un contexte de 256 000 tokens, capable de 200–300 appels d'outils séquentiels, et surpassant GPT‑5 et Claude Sonnet 4.5 sur plusieurs benchmarks (Humanity's Last Exam 44,9 %, BrowseComp 60,2 %, SWE‑Bench Verified 71,3 %[25],[26],[27]).
En Chine, Kimi est proposé en six formules tarifaires d(de 5,2 ¥ pour quatre jours à 399 ¥ pour un an)[28].
Recherche et développement
Moonshot AI mène des travaux de recherche, notamment sur :
- l'optimiseur Muon, démontré comme scalable pour l'entraînement de modèles MoE de 16 milliards de paramètres avec un gain d'efficacité d'un facteur 2 par rapport à AdamW[29],
- les méthodes de renforcement utilisées pour Kimi K1.5, fondées sur l'extension du contexte et l'optimisation de politique sans recourir à des techniques complexes comme MCTS ou les modèles de récompense de processus[30].
Mooncake
La plateforme Mooncake, qui sert Kimi, traite 100 milliards de tokens par jour et a valu à Moonshot le prix Erik Riedel à l'USENIX FAST pour sa description architecturale[31].
Optimisation : montée en échelle de l'optimiseur Muon
Dans une étude conjointe Moonshot–UCLA, les chercheurs affirment avoir étendu l'optimiseur Muon, auparavant performant sur de petits modèles, à l'entraînement d'un modèle MoE de 16 milliards de paramètres, dont 3 milliards actifs. Ils rapportent un gain d'efficacité d'un facteur 2 par rapport à l'optimiseur standard AdamW, ce qui en ferait une solution notable pour réduire les coûts de calcul lors de l'entraînement de grands modèles[29]. L'équipe a publié en open source l'implémentation de Muon ainsi que les checkpoints pré‑entraînés et instruction‑tunés associés[2].
