Mamba (apprentissage profond)

Mamba est une architecture d'apprentissage profond introduite en décembre 2023 par deux chercheurs de Carnegie Mellon et de Princeton, Albert Gu et Tri Dao^[1]

Mamba s'est rapidement imposé en 2024 comme la principale alternative à l'architecture Transformeur pour le traitement automatique des langues (TAL) et pour les grands modèles de langage comme GPT-3 ou Llama.

Mamba appartient à une famille élargie de modèles à espace d'états structurés (Structured State Space Models, SSM), une catégorie de réseaux neuronaux séquentiels inspirée des systèmes dynamiques linéaires^[1]. Contrairement aux Transformers, Mamba remplace le mécanisme d'attention et les couches de perceptrons multicouches par un bloc SSM unifié, réduisant la complexité computationnelle de $O(n^{2})$ à $O(n)$ pour la génération de séquences^[1]. Cette approche repose sur une sélectivité dynamique : le modèle adapte ses paramètres (matrices $B$ , $C$ , et le pas discret $\Delta$ ) en fonction des données d'entrée, filtrant les informations non pertinentes tout en conservant les contextes critiques^[2].

À la différence des SSM traditionnels ou des réseaux de neurones récurrents (RNN), Mamba introduit une dépendance aux données (data-dependent), combinant la flexibilité des Transformers avec l'efficacité des modèles récurrents^[1]. Par exemple, il peut ignorer les mots vides (stopwords) grâce à des matrices $A$ optimisées via des techniques comme HiPPO (High-order Polynomial Projection Operators), assurant une mémoire à long terme des concepts clés^[1].

Le design de Mamba permet de traiter des contextes extrêmement longs (jusqu'à 256 000 tokens dans des architectures hybrides comme Jamba^[3]), là où les Transformers classiques peinent à dépasser 32 000 tokens sans techniques de fenêtrage^[4]. Cette capacité repose sur une croissance linéaire du temps d'inférence avec la longueur de la séquence, évitant l'explosion combinatoire des calculs d'attention ( $O(n^{2})$ vs $O(n)$ )^[1].

Concrètement, Mamba facilite le traitement de documents entiers (livres, rapports techniques) pour des tâches comme le résumé automatique ou la synthèse contextuelle. Des optimisations matérielles (hardware-aware) exploitent efficacement les GPU modernes grâce à des opérations parallélisables pendant l'entraînement et un état caché compact pendant l'inférence^[1].

Mamba (apprentissage profond)

Usage

Notes et références

Voir aussi

Articles connexes

Related Articles