Mamba (apprentissage profond)
From Wikipedia, the free encyclopedia

Mamba est une architecture d'apprentissage profond introduite en décembre 2023 par deux chercheurs de Carnegie Mellon et de Princeton, Albert Gu et Tri Dao[1]
Mamba s'est rapidement imposé en 2024 comme la principale alternative à l'architecture Transformeur pour le traitement automatique des langues (TAL) et pour les grands modèles de langage comme GPT-3 ou Llama.
Mamba appartient à une famille élargie de modèles à espace d'états structurés (Structured State Space Models, SSM), une catégorie de réseaux neuronaux séquentiels inspirée des systèmes dynamiques linéaires[1]. Contrairement aux Transformers, Mamba remplace le mécanisme d'attention et les couches de perceptrons multicouches par un bloc SSM unifié, réduisant la complexité computationnelle de à pour la génération de séquences[1]. Cette approche repose sur une sélectivité dynamique : le modèle adapte ses paramètres (matrices , , et le pas discret ) en fonction des données d'entrée, filtrant les informations non pertinentes tout en conservant les contextes critiques[2].
À la différence des SSM traditionnels ou des réseaux de neurones récurrents (RNN), Mamba introduit une dépendance aux données (data-dependent), combinant la flexibilité des Transformers avec l'efficacité des modèles récurrents[1]. Par exemple, il peut ignorer les mots vides (stopwords) grâce à des matrices optimisées via des techniques comme HiPPO (High-order Polynomial Projection Operators), assurant une mémoire à long terme des concepts clés[1].
Le design de Mamba permet de traiter des contextes extrêmement longs (jusqu'à 256 000 tokens dans des architectures hybrides comme Jamba[3]), là où les Transformers classiques peinent à dépasser 32 000 tokens sans techniques de fenêtrage[4]. Cette capacité repose sur une croissance linéaire du temps d'inférence avec la longueur de la séquence, évitant l'explosion combinatoire des calculs d'attention ( vs )[1].
Concrètement, Mamba facilite le traitement de documents entiers (livres, rapports techniques) pour des tâches comme le résumé automatique ou la synthèse contextuelle. Des optimisations matérielles (hardware-aware) exploitent efficacement les GPU modernes grâce à des opérations parallélisables pendant l'entraînement et un état caché compact pendant l'inférence[1].