Apprentissage auto-supervisé
From Wikipedia, the free encyclopedia
| Type |
Apprentissage automatique, weakly supervised learning (en) |
|---|---|
| Nom court |
(en) SSL |
L'apprentissage auto-supervisé (en anglais : self-supervised learning, SSL) est une méthode d'apprentissage automatique où le modèle apprend à partir d'échantillons de données non annotées. Il peut être considéré comme une forme intermédiaire entre l'apprentissage supervisé et non supervisé. L'apprentissage auto-supervisé est typiquement utilisé sur des architectures à base de réseau de neurones artificiels[1]. Le réseau de neurones apprend en deux étapes. Tout d'abord, la tâche est résolue sur la base de pseudo-étiquettes qui aident à initialiser les poids du réseau[2],[3]. Deuxièmement, la tâche réelle est effectuée avec un apprentissage supervisé ou non supervisé[4],[5],[6]. L'apprentissage auto-supervisé a produit des résultats prometteurs ces dernières années et a trouvé une application pratique dans le traitement audio et est utilisé par Facebook et d'autres pour la reconnaissance vocale[7]. Le principal attrait du SSL est que la formation peut se produire avec des données de qualité inférieure, plutôt que d'améliorer les résultats finaux. L'apprentissage auto-supervisé imite de plus près la façon dont les humains apprennent à classifier les objets[8].
SSL contrasté
Pour une tâche de classification binaire, les données d'apprentissage peuvent être divisées en exemples positifs et en exemples négatifs. Les exemples positifs sont ceux qui correspondent à la cible. Par exemple, si vous apprenez à identifier les oiseaux, les données d'entraînement positives sont les images qui contiennent des oiseaux. Les exemples négatifs sont ceux qui n'en contiennent pas[9].
Le SSL contrasté utilise à la fois des exemples positifs et négatifs. La fonction de perte de l'apprentissage contrasté minimise la distance entre les échantillons positifs tout en maximisant la distance entre les échantillons négatifs[9].
SSL non contrasté (NCSSL)
Le SSL non contrasté n'utilise que des exemples positifs. Contre-intuitivement, le NCSSL converge vers un minimum local utile plutôt que d'atteindre une solution triviale, avec une perte nulle. Pour l'exemple de la classification binaire, il faudrait trivialement apprendre à classer chaque exemple comme positif. Un NCSSL efficace nécessite un prédicteur supplémentaire du côté en ligne qui ne se propage pas du côté cible[9].
Joint‑Embedding Predictive Architectures (JEPA)
La notion de « Joint‑Embedding Predictive Architectures » notamment promue par Yann Le Cun désigne les architectures prédictives à espace d'embedding commun ; embedding signifiant ici à la fois « représentation vectorielle » et « représentation dans un espace latent ». Autrement dit, les JEPA sont des « Architectures prédictives à espace latent commun » ; des modèles d'IA qui apprennent en comparant et en prédisant des représentations, sans avoir besoin de se former sur des tâches préalablement annotées[note 1] internes (par exemple d'un même objet, d'un motif sonore, ou d'une même scène...), codées sous forme vectorielle plutôt qu'en générant des données visibles[10].
Ces JEPA sont un prolongement évolutif des approches auto‑supervisées issues des Joint‑Embedding Architectures (JEA) comme les méthode d'apprentissage auto‑supervisé dite Barlow Twins[11] ou VICReg[12], elles‑mêmes ancrées dans la Deep Canonical Correlation Analysis[13] et généralisées au multimodal par le Deep Latent Variable Path Modelling[14] ; introduits en 2022 par Yann LeCun comme une étape vers une IA agentique ou plus exactement vers des agents intelligents autonomes capables d'apprendre, raisonner et planifier comme les humains, en combinant un modèle prédictif du monde, une motivation intrinsèque et des architectures hiérarchiques apprenant des représentations à plusieurs niveaux d'abstraction[15] ; les JEPA apprennent dans un espace latent — une représentation du monde, interne et cachée car compressée — en prédisant des représentations masquées à partir d'un contexte visible[10] plutôt qu'en générant des données ou en reconstruisant des pixels, comme le ferait un auto-encodeur en consommant beaucoup plus de temps et de ressources computationnelle. Cette prédiction latente permet d'éviter le « bruit » de bas niveau et de se concentrer sur la structure sémantique des données, ouvrant la voie à des modèles du monde (world models) capables de mieux capter les invariants du monde[12], pour soutenir une intelligence autonome et moins gourmande en ressources.
Les JEPA se distinguent ainsi des méthodes dites contrastives :
- en maximisant l'accord entre vues compatibles, c'est à dire entre versions différentes d'une même donnée qui contiennent la même information essentielle, même si elles ont été transformées.
C'est un point important car ces "vues" doivent pouvoir être rapprochées par l'IA dans l'espace latent où elles doivent représenter le même objet, la même scène ou le même signal, même si elles sont modifiées (par exemple dans le cas d'un recadrage, de bruit parasite, d'une rotation, d'une changement de couleur, autre segment audio, etc.) ; - tout en empêchant l'effondrement (collapse) du modèle, une situation qui apparait quand le modèle produit la même représentation pour toutes les données ou pour des données en réalité significativement différentes, ce qui le rend inutile ( par exemple si toutes les images donnent le même vecteur, le modèle n'a rien appris). Ici, le collapsus du modèle est évité en lui imposant des contraintes statistiques qui sont des règles mathématiques forçant les représentations à rester variées, à ne pas être redondantes et à capturer des dimensions informatives (dans VICReg ou Barlow Twins, il s'agit de contraintes de variance minimale, de faible redondance et de contrôle des corrélations)[12],[10].
- en se montre aussi très efficace et stable pour permettre à une IA d'apprendre des représentations invariantes sans avoir besoin des « échantillons négatifs » qui sont nécessaires aux méthodes contrastives qui comparent des paires positives (ex : deux vues d'un même objet) à des paires négatives (deux objets différents) de manière à pousser les représentations à mieux se distinguer les unes des autres quand cela est justifié. Les JEPA n'en ont pas besoin d'« échantillons négatifs », ce qui simplifie l'apprentissage[12], aboutissant à une efficacité computationnelle accrue, une meilleure robustesse et une capacité à modéliser directement les régularités du monde.
Le cadre JEPA étant relativement général, il peut être utilisé dans tous les cas où l'on a un espace latent, une notion de “contexte”, une zone “à prédire”. Entre 2022 et 2026, ce cadre a déjà été décliné dans les domaines suivants :
- analyse d'images (I-JEPA), en prédisant les représentations de blocs de pixels masqués à partir d'un contexte visible[16] ;
- traitement du signal audio (A‑JEPA) ; en masquant des régions d'un spectrogramme et en prédisant leurs représentations latentes, un JEPA peut surpasser les approches supervisées classiques ;
- analyse de vidéos (V-JEPA ou MC-JEPA pour vidéo motion/content) adapté à l'analyse vidéo et à la modélisation du mouvement ; où la dimension temporelle a une grande importance[17] ;
- analyse génomique (JEPA‑DNA), qui est un cadre de pré‑entraînement de modèles génomiques dépassant les approches classiques (de type MLM ou NTP, lesquelles capturent bien la syntaxe locale de l’ADN mais échouent à saisir son contexte fonctionnel global. En combinant ces objectifs génératifs avec une prédiction dans l’espace latent supervisée via un token CLS, ce JEPA‑DNA force le modèle à anticiper les représentations fonctionnelles de segments masqués plutôt que de se limiter aux nucléotides individuels. Il améliorer systématiquement les performances sur de nombreux benchmarks, en supervision comme en zero‑shot, et produit des représentations plus robustes et biologiquement pertinentes, ouvrant la voie à des modèles capables de comprendre non seulement l’alphabet génomique mais aussi la logique fonctionnelle sous‑jacente[18].
- variantes multimodales de JEPA (M‑JEPA), où l'IA acquiert des représentations communes entre plusieurs types de signaux (par exemple : image + texte ; image + audio ; audio + vidéo, etc.) ; ici le principe est est le même que pour I‑JEPA ou A‑JEPA : prédire des représentations latentes masquées à partir d'un contexte pour « prédire des embeddings latents plutôt que générer des tokens », mais ici, chaque modalité (image, texte, son…), peut servir de contexte pour une autre (comme cela se produit à partir des sens dans le corps et le cerveau animal, humain notamment) ; par exemple, un VL-JEPA (Vision-Language JEPA) prédit des embeddings sémantiques continus d'images/vidéos à partir de texte (ou vice-versa), de manière plus légère et efficace que les VLM génératifs token-par-token ; et il gère la classification (ex : identifier ce que contient une image), le retrieval (retrouver l’image la plus pertinente à partir d’un texte ou d’une autre image correspondant à une requête), et le VQA (Visual Question Answering, réponse à des questions posées à propos d'une image) ; en surpassant souvent le benchmark InstructBLIP/Qwen-VL[note 2] tout en recentrant l'IA multimodale sur la compréhension plutôt que sur la génération[19].
M‑JEPA apprend à aligner et prédire des représentations entre modalités différentes, ce qui permet un espace latent partagé, cohérent et sémantiquement structuré, utile pour permettre à l'IA de construire un modèle du monde multimodal.
Ces exemples confirment la portée « transmodale » de cette famille d'architectures et que le principe général du JEPA peut être étendu à des modalités variées (scalabilité)[20]. D'autres domaines pourraient être l'analyse d'odeurs captées par un nez artificiel ; de matériaux et textures via un JEPA sensorimoteur, ou encore des JEPA orientés vers l'analyse de données 3D et/ou de nuages de points qui pourraient être utiles pour la robotique, la vision 3D, la reconstruction de scène ; ou même des JEPA dédiés à l'analyse de données textuelles et du langage (des JEPA qui seraient proches des modèles de langage, mais en version « non générative ») ; ou encore des JEPA dédiés à l'analyse de données tabulaires ou de séries temporelles (pour la finance, la météo, la santé, l'Histoire et la prospective, où contexte serait une fenêtre temporelle, la prédiction une autre fenêtre)...
L'un des objectifs du JEPA est d'aider les IA à se créer un modèle sémantique du monde dans un espace latent, c’est‑à‑dire une compréhension interne et simplifiée de ce qu’elle 'observe'. En 2026, un groupe de chercheurs a publié EB‑JEPA, une bibliothèque open‑source dédiée à l’apprentissage de représentations et de tels modèles (world models). Cet outil inclut des implémentations modulaires permettant que des techniques d’auto‑supervision développées pour l’image se généralisent ensuite à la vidéo (où la dynamique temporelle complique la tâche), puis aux world models conditionnés par l’action (c’est‑à‑dire où l’IA peut prévoir les effets d’actions, comme se déplacer dans un environnement). Les exemples fournis par cette biblitohèque permettent un entraînement en quelques heures sur un seul GPU. En apprentissage automatique, une ablation est une expérience où l’on retire ou modifie volontairement un composant d’un modèle afin de mesurer son importance et de comprendre son rôle dans les performances finales. La bibliothèque inclut des exemples d'ablations sur CIFAR‑10, un jeu de données standard composé d'imagettes classées en dix catégories (avec 91 % de précision en probing), une prédiction multi‑pas sur Moving‑MNIST (un jeu de données dérivé de MNIST où des chiffres manuscrits se déplacent dans une séquence vidéo, utilisé pour évaluer la capacité d’un modèle à prédire des mouvements et à gérer la dynamique temporelle, MNIST étant une base de données très utilisé en intelligence artificielle, composé de 70 000 images de chiffres manuscrits (de 0 à 9) en noir et blanc, servant à entraîner et tester des modèles de reconnaissance d’images). L'outil propose un world model conditionné par l’action atteignant 97 % de réussite en planification dans la tâche Two Rooms (un petit environnement-test de navigation utilisé pour tester les “world models” : il s’agit d’un labyrinthe très simple composé de deux pièces reliées par un passage, dans lequel un agent doit planifier et exécuter une suite d’actions pour atteindre une cible). Les ablations montrent enfin que chaque composant de régularisation (implémentés dans le modèle d'IA pour l’empêcher de “tricher” ou de s’effondrer, il l’oblige à apprendre des représentations variées et utiles plutôt que des solutions trop simples ou répétitives) est crucial pour éviter l’effondrement des représentations[21].
Les promoteurs des JEPAs (dont Yann Le Cun) soutiennent que les modèles génératifs (modèles de diffusion y compris), sont fondamentalement inadaptés comme base de l'IA générale car devant prédire chaque détail dans l'espace d'observation continu, ce qui les rend coûteux, inadaptés à la modélisation de « modèles du monde » hiérarchiques et peu robustes face au bruit, alors que le JEPA prédit seulement des représentations latentes abstraites jugées plus proches du fonctionnement cognitif souhaité en rendant l'IA bien moins dépendance aux jeux de données labellisés[22],[23].
D'autres chercheurs estiment au contraire que si les modèles de diffusion sont effectivement très consommateurs de ressource informatique, ils sont aujourd'hui les meilleurs estimateurs de distributions complexes à haute dimension, garantissent que les échantillons respectent la densité complète des données. D'autres enfin relativisent en notant qu'on peut combiner ces deux approches dans des variantes génératives (par exemple D‑JEPA), ce qui pourrait renforcer le rôle des modèles génératifs pour certaines tâches[24],[25].
Les divergences sont notamment dues au fait que JEPA n'a pour l'instant montré ses avantages que sur des tâches de représentation auto-supervisée (avec des indices de capacité intéressantes de généralisation, avec par exemple un JEPA créé pour l’apprentissage auto‑supervisé sur des graphes moléculaires de polymères et dont les résultats se sont généralisés à des domaines chimiques différents)[26] alors que le modèle de diffusion a déjà fait la preuve de sa scalabilité et de ses capacités génératives à grande échelle, faisant qu'il n'y a pas encore de consensus concernant l'importance relative de la densité des données versus modèles du monde latents pour la future IAG (IA générale) ou une éventuelle future superintelligence
[27],[28]. En 2023, un indicateur, baptisé LiDAR, a été proposé pour évaluer la qualité des représentations apprises par les architectures de type Joint‑Embedding[29].
Comparaison avec d'autres formes d'apprentissage automatique
Le SSL appartient aux méthodes d'apprentissage supervisé dans la mesure où le but est de générer une sortie classifiée à partir de l'entrée. Cependant, il ne nécessite pas l'utilisation explicite de paires entrée-sortie étiquetées. Au lieu de cela, les corrélations, les métadonnées intégrées dans les données ou les connaissances du domaine présentes dans l'entrée sont extraites implicitement et automatiquement des données[30]. Ces signaux de supervision, générés à partir des données, peuvent ensuite être utilisés pour la formation[8].
Le SSL est similaire à l'apprentissage non supervisé en ce sens qu'il ne nécessite pas d'étiquettes dans les exemples de données. Contrairement à l'apprentissage non supervisé, cependant, l'apprentissage ne se fait pas à l'aide de structures de données inhérentes[30].
L'apprentissage semi-supervisé combine l'apprentissage supervisé et non supervisé, ne nécessitant que l'étiquetage d'une petite partie des données d'apprentissage[3].
Dans l'apprentissage par transfert, un modèle conçu pour une tâche est réutilisé pour une tâche différente[31].
