Apprentissage auto-supervisé

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

La typographie de cet article ou de cette section ne respecte pas les conventions de Wikipédia (mars 2026).

Vous pouvez corriger, en discuter sur l’Atelier typographique ou créer la discussion.

Type

Apprentissage automatique, weakly supervised learning (en)

Nom court

(en) SSL

Apprentissage auto-supervisé

Type	Apprentissage automatique, weakly supervised learning (en)
Nom court	(en) SSL

L'apprentissage auto-supervisé (en anglais : self-supervised learning, SSL) est une méthode d'apprentissage automatique où le modèle apprend à partir d'échantillons de données non annotées. Il peut être considéré comme une forme intermédiaire entre l'apprentissage supervisé et non supervisé. L'apprentissage auto-supervisé est typiquement utilisé sur des architectures à base de réseau de neurones artificiels^[1]. Le réseau de neurones apprend en deux étapes. Tout d'abord, la tâche est résolue sur la base de pseudo-étiquettes qui aident à initialiser les poids du réseau^[2]^,^[3]. Deuxièmement, la tâche réelle est effectuée avec un apprentissage supervisé ou non supervisé^[4]^,^[5]^,^[6]. L'apprentissage auto-supervisé a produit des résultats prometteurs ces dernières années et a trouvé une application pratique dans le traitement audio et est utilisé par Facebook et d'autres pour la reconnaissance vocale^[7]. Le principal attrait du SSL est que la formation peut se produire avec des données de qualité inférieure, plutôt que d'améliorer les résultats finaux. L'apprentissage auto-supervisé imite de plus près la façon dont les humains apprennent à classifier les objets^[8].

SSL contrasté

Pour une tâche de classification binaire, les données d'apprentissage peuvent être divisées en exemples positifs et en exemples négatifs. Les exemples positifs sont ceux qui correspondent à la cible. Par exemple, si vous apprenez à identifier les oiseaux, les données d'entraînement positives sont les images qui contiennent des oiseaux. Les exemples négatifs sont ceux qui n'en contiennent pas^[9].

Le SSL contrasté utilise à la fois des exemples positifs et négatifs. La fonction de perte de l'apprentissage contrasté minimise la distance entre les échantillons positifs tout en maximisant la distance entre les échantillons négatifs^[9].

SSL non contrasté (NCSSL)

Le SSL non contrasté n'utilise que des exemples positifs. Contre-intuitivement, le NCSSL converge vers un minimum local utile plutôt que d'atteindre une solution triviale, avec une perte nulle. Pour l'exemple de la classification binaire, il faudrait trivialement apprendre à classer chaque exemple comme positif. Un NCSSL efficace nécessite un prédicteur supplémentaire du côté en ligne qui ne se propage pas du côté cible^[9].

Joint‑Embedding Predictive Architectures (JEPA)

La notion de « Joint‑Embedding Predictive Architectures » notamment promue par Yann Le Cun désigne les architectures prédictives à espace d'embedding commun ; embedding signifiant ici à la fois « représentation vectorielle » et « représentation dans un espace latent ». Autrement dit, les JEPA sont des « Architectures prédictives à espace latent commun » ; des modèles d'IA qui apprennent en comparant et en prédisant des représentations, sans avoir besoin de se former sur des tâches préalablement annotées^{[note 1]} internes (par exemple d'un même objet, d'un motif sonore, ou d'une même scène...), codées sous forme vectorielle plutôt qu'en générant des données visibles^[10].

Ces JEPA sont un prolongement évolutif des approches auto‑supervisées issues des Joint‑Embedding Architectures (JEA) comme les méthode d'apprentissage auto‑supervisé dite Barlow Twins^[11] ou VICReg^[12], elles‑mêmes ancrées dans la Deep Canonical Correlation Analysis^[13] et généralisées au multimodal par le Deep Latent Variable Path Modelling^[14] ; introduits en 2022 par Yann LeCun comme une étape vers une IA agentique ou plus exactement vers des agents intelligents autonomes capables d'apprendre, raisonner et planifier comme les humains, en combinant un modèle prédictif du monde, une motivation intrinsèque et des architectures hiérarchiques apprenant des représentations à plusieurs niveaux d'abstraction^[15] ; les JEPA apprennent dans un espace latent — une représentation du monde, interne et cachée car compressée — en prédisant des représentations masquées à partir d'un contexte visible^[10] plutôt qu'en générant des données ou en reconstruisant des pixels, comme le ferait un auto-encodeur en consommant beaucoup plus de temps et de ressources computationnelle. Cette prédiction latente permet d'éviter le « bruit » de bas niveau et de se concentrer sur la structure sémantique des données, ouvrant la voie à des modèles du monde (world models) capables de mieux capter les invariants du monde^[12], pour soutenir une intelligence autonome et moins gourmande en ressources.

Les JEPA se distinguent ainsi des méthodes dites contrastives :

en maximisant l'accord entre vues compatibles, c'est à dire entre versions différentes d'une même donnée qui contiennent la même information essentielle, même si elles ont été transformées.
C'est un point important car ces "vues" doivent pouvoir être rapprochées par l'IA dans l'espace latent où elles doivent représenter le même objet, la même scène ou le même signal, même si elles sont modifiées (par exemple dans le cas d'un recadrage, de bruit parasite, d'une rotation, d'une changement de couleur, autre segment audio, etc.) ;
tout en empêchant l'effondrement (collapse) du modèle, une situation qui apparait quand le modèle produit la même représentation pour toutes les données ou pour des données en réalité significativement différentes, ce qui le rend inutile ( par exemple si toutes les images donnent le même vecteur, le modèle n'a rien appris). Ici, le collapsus du modèle est évité en lui imposant des contraintes statistiques qui sont des règles mathématiques forçant les représentations à rester variées, à ne pas être redondantes et à capturer des dimensions informatives (dans VICReg ou Barlow Twins, il s'agit de contraintes de variance minimale, de faible redondance et de contrôle des corrélations)^[12]^,^[10].
en se montre aussi très efficace et stable pour permettre à une IA d'apprendre des représentations invariantes sans avoir besoin des « échantillons négatifs » qui sont nécessaires aux méthodes contrastives qui comparent des paires positives (ex : deux vues d'un même objet) à des paires négatives (deux objets différents) de manière à pousser les représentations à mieux se distinguer les unes des autres quand cela est justifié. Les JEPA n'en ont pas besoin d'« échantillons négatifs », ce qui simplifie l'apprentissage^[12], aboutissant à une efficacité computationnelle accrue, une meilleure robustesse et une capacité à modéliser directement les régularités du monde.

Le cadre JEPA étant relativement général, il peut être utilisé dans tous les cas où l'on a un espace latent, une notion de “contexte”, une zone “à prédire”. Entre 2022 et 2026, ce cadre a déjà été décliné dans les domaines suivants :

analyse d'images (I-JEPA), en prédisant les représentations de blocs de pixels masqués à partir d'un contexte visible^[16] ;
traitement du signal audio (A‑JEPA) ; en masquant des régions d'un spectrogramme et en prédisant leurs représentations latentes, un JEPA peut surpasser les approches supervisées classiques ;
analyse de vidéos (V-JEPA ou MC-JEPA pour vidéo motion/content) adapté à l'analyse vidéo et à la modélisation du mouvement ; où la dimension temporelle a une grande importance^[17] ;
analyse génomique (JEPA‑DNA), qui est un cadre de pré‑entraînement de modèles génomiques dépassant les approches classiques (de type MLM ou NTP, lesquelles capturent bien la syntaxe locale de l’ADN mais échouent à saisir son contexte fonctionnel global. En combinant ces objectifs génératifs avec une prédiction dans l’espace latent supervisée via un token CLS, ce JEPA‑DNA force le modèle à anticiper les représentations fonctionnelles de segments masqués plutôt que de se limiter aux nucléotides individuels. Il améliorer systématiquement les performances sur de nombreux benchmarks, en supervision comme en zero‑shot, et produit des représentations plus robustes et biologiquement pertinentes, ouvrant la voie à des modèles capables de comprendre non seulement l’alphabet génomique mais aussi la logique fonctionnelle sous‑jacente^[18].
variantes multimodales de JEPA (M‑JEPA), où l'IA acquiert des représentations communes entre plusieurs types de signaux (par exemple : image + texte ; image + audio ; audio + vidéo, etc.) ; ici le principe est est le même que pour I‑JEPA ou A‑JEPA : prédire des représentations latentes masquées à partir d'un contexte pour « prédire des embeddings latents plutôt que générer des tokens », mais ici, chaque modalité (image, texte, son…), peut servir de contexte pour une autre (comme cela se produit à partir des sens dans le corps et le cerveau animal, humain notamment) ; par exemple, un VL-JEPA (Vision-Language JEPA) prédit des embeddings sémantiques continus d'images/vidéos à partir de texte (ou vice-versa), de manière plus légère et efficace que les VLM génératifs token-par-token ; et il gère la classification (ex : identifier ce que contient une image), le retrieval (retrouver l’image la plus pertinente à partir d’un texte ou d’une autre image correspondant à une requête), et le VQA (Visual Question Answering, réponse à des questions posées à propos d'une image) ; en surpassant souvent le benchmark InstructBLIP/Qwen-VL^{[note 2]} tout en recentrant l'IA multimodale sur la compréhension plutôt que sur la génération^[19].
M‑JEPA apprend à aligner et prédire des représentations entre modalités différentes, ce qui permet un espace latent partagé, cohérent et sémantiquement structuré, utile pour permettre à l'IA de construire un modèle du monde multimodal.

Ces exemples confirment la portée « transmodale » de cette famille d'architectures et que le principe général du JEPA peut être étendu à des modalités variées (scalabilité)^[20]. D'autres domaines pourraient être l'analyse d'odeurs captées par un nez artificiel ; de matériaux et textures via un JEPA sensorimoteur, ou encore des JEPA orientés vers l'analyse de données 3D et/ou de nuages de points qui pourraient être utiles pour la robotique, la vision 3D, la reconstruction de scène ; ou même des JEPA dédiés à l'analyse de données textuelles et du langage (des JEPA qui seraient proches des modèles de langage, mais en version « non générative ») ; ou encore des JEPA dédiés à l'analyse de données tabulaires ou de séries temporelles (pour la finance, la météo, la santé, l'Histoire et la prospective, où contexte serait une fenêtre temporelle, la prédiction une autre fenêtre)...

L'un des objectifs du JEPA est d'aider les IA à se créer un modèle sémantique du monde dans un espace latent, c’est‑à‑dire une compréhension interne et simplifiée de ce qu’elle 'observe'. En 2026, un groupe de chercheurs a publié EB‑JEPA, une bibliothèque open‑source dédiée à l’apprentissage de représentations et de tels modèles (world models). Cet outil inclut des implémentations modulaires permettant que des techniques d’auto‑supervision développées pour l’image se généralisent ensuite à la vidéo (où la dynamique temporelle complique la tâche), puis aux world models conditionnés par l’action (c’est‑à‑dire où l’IA peut prévoir les effets d’actions, comme se déplacer dans un environnement). Les exemples fournis par cette biblitohèque permettent un entraînement en quelques heures sur un seul GPU. En apprentissage automatique, une ablation est une expérience où l’on retire ou modifie volontairement un composant d’un modèle afin de mesurer son importance et de comprendre son rôle dans les performances finales. La bibliothèque inclut des exemples d'ablations sur CIFAR‑10, un jeu de données standard composé d'imagettes classées en dix catégories (avec 91 % de précision en probing), une prédiction multi‑pas sur Moving‑MNIST (un jeu de données dérivé de MNIST où des chiffres manuscrits se déplacent dans une séquence vidéo, utilisé pour évaluer la capacité d’un modèle à prédire des mouvements et à gérer la dynamique temporelle, MNIST étant une base de données très utilisé en intelligence artificielle, composé de 70 000 images de chiffres manuscrits (de 0 à 9) en noir et blanc, servant à entraîner et tester des modèles de reconnaissance d’images). L'outil propose un world model conditionné par l’action atteignant 97 % de réussite en planification dans la tâche Two Rooms (un petit environnement-test de navigation utilisé pour tester les “world models” : il s’agit d’un labyrinthe très simple composé de deux pièces reliées par un passage, dans lequel un agent doit planifier et exécuter une suite d’actions pour atteindre une cible). Les ablations montrent enfin que chaque composant de régularisation (implémentés dans le modèle d'IA pour l’empêcher de “tricher” ou de s’effondrer, il l’oblige à apprendre des représentations variées et utiles plutôt que des solutions trop simples ou répétitives) est crucial pour éviter l’effondrement des représentations^[21].

Les promoteurs des JEPAs (dont Yann Le Cun) soutiennent que les modèles génératifs (modèles de diffusion y compris), sont fondamentalement inadaptés comme base de l'IA générale car devant prédire chaque détail dans l'espace d'observation continu, ce qui les rend coûteux, inadaptés à la modélisation de « modèles du monde » hiérarchiques et peu robustes face au bruit, alors que le JEPA prédit seulement des représentations latentes abstraites jugées plus proches du fonctionnement cognitif souhaité en rendant l'IA bien moins dépendance aux jeux de données labellisés^[22]^,^[23].
D'autres chercheurs estiment au contraire que si les modèles de diffusion sont effectivement très consommateurs de ressource informatique, ils sont aujourd'hui les meilleurs estimateurs de distributions complexes à haute dimension, garantissent que les échantillons respectent la densité complète des données. D'autres enfin relativisent en notant qu'on peut combiner ces deux approches dans des variantes génératives (par exemple D‑JEPA), ce qui pourrait renforcer le rôle des modèles génératifs pour certaines tâches^[24]^,^[25]. Les divergences sont notamment dues au fait que JEPA n'a pour l'instant montré ses avantages que sur des tâches de représentation auto-supervisée (avec des indices de capacité intéressantes de généralisation, avec par exemple un JEPA créé pour l’apprentissage auto‑supervisé sur des graphes moléculaires de polymères et dont les résultats se sont généralisés à des domaines chimiques différents)^[26] alors que le modèle de diffusion a déjà fait la preuve de sa scalabilité et de ses capacités génératives à grande échelle, faisant qu'il n'y a pas encore de consensus concernant l'importance relative de la densité des données versus modèles du monde latents pour la future IAG (IA générale) ou une éventuelle future superintelligence ^[27]^,^[28]. En 2023, un indicateur, baptisé LiDAR, a été proposé pour évaluer la qualité des représentations apprises par les architectures de type Joint‑Embedding^[29].

Comparaison avec d'autres formes d'apprentissage automatique

Le SSL appartient aux méthodes d'apprentissage supervisé dans la mesure où le but est de générer une sortie classifiée à partir de l'entrée. Cependant, il ne nécessite pas l'utilisation explicite de paires entrée-sortie étiquetées. Au lieu de cela, les corrélations, les métadonnées intégrées dans les données ou les connaissances du domaine présentes dans l'entrée sont extraites implicitement et automatiquement des données^[30]. Ces signaux de supervision, générés à partir des données, peuvent ensuite être utilisés pour la formation^[8].

Le SSL est similaire à l'apprentissage non supervisé en ce sens qu'il ne nécessite pas d'étiquettes dans les exemples de données. Contrairement à l'apprentissage non supervisé, cependant, l'apprentissage ne se fait pas à l'aide de structures de données inhérentes^[30].

L'apprentissage semi-supervisé combine l'apprentissage supervisé et non supervisé, ne nécessitant que l'étiquetage d'une petite partie des données d'apprentissage^[3].

Dans l'apprentissage par transfert, un modèle conçu pour une tâche est réutilisé pour une tâche différente^[31].

Exemples

Notes et références

Notes

↑ Ici, le mot « représentation » désigne une version vectorielle et compressée d’une donnée (image, son, texte, scène…), encodée dans un espace latent de manière à capturer son information essentielle plutôt que ses détails bruts
↑ InstructBLIP est un modèle vision‑langage (VLM) qui combine BLIP‑2 à un entraînement supplémentaire de type « instruction tuning » (d’où le préfixe Instruct). Ici, BLIP‑2 a ainsi été affiné pour pouvoir répondre à des instructions faites en langage naturel

Références

↑ (en) Abshire, « Self-Supervised Learning: A Key to Unlocking Self-Driving Cars? », Medium, 6 avril 2018 (consulté le 9 juin 2021)
↑ Doersch et Zisserman, « Multi-task Self-Supervised Visual Learning », 2017 IEEE International Conference on Computer Vision (ICCV), IEEE,‎ octobre 2017, p. 2070–2079 (ISBN 978-1-5386-1032-9, DOI 10.1109/iccv.2017.226, arXiv 1708.07860, S2CID 473729, lire en ligne)
1 2 Beyer, Zhai, Oliver et Kolesnikov, « S4L: Self-Supervised Semi-Supervised Learning », 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE,‎ octobre 2019, p. 1476–1485 (ISBN 978-1-7281-4803-8, DOI 10.1109/iccv.2019.00156, arXiv 1905.03670, S2CID 167209887, lire en ligne)
↑ Doersch, Gupta et Efros, « Unsupervised Visual Representation Learning by Context Prediction », 2015 IEEE International Conference on Computer Vision (ICCV), IEEE,‎ décembre 2015, p. 1422–1430 (ISBN 978-1-4673-8391-2, DOI 10.1109/iccv.2015.167, arXiv 1505.05192, S2CID 9062671, lire en ligne)
↑ Zheng, Wang, Wang et Liu, « Fast and robust segmentation of white blood cell images by self-supervised learning », Micron, vol. 107,‎ avril 2018, p. 55–71 (ISSN 0968-4328, PMID 29425969, DOI 10.1016/j.micron.2018.01.010, lire en ligne)
↑ Gidaris, Bursuc, Komodakis et Perez, « Boosting Few-Shot Visual Learning With Self-Supervision », 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE,‎ octobre 2019, p. 8058–8067 (ISBN 978-1-7281-4803-8, DOI 10.1109/iccv.2019.00815, arXiv 1906.05186, S2CID 186206588, lire en ligne)
1 2 (en) « Wav2vec: State-of-the-art speech recognition through self-supervision », ai.facebook.com (consulté le 9 juin 2021)
1 2 (en) Bouchard, « What is Self-Supervised Learning? | Will machines ever be able to learn like humans? », Medium, 25 novembre 2020 (consulté le 9 juin 2021)
1 2 3 4 (en) « Demystifying a key self-supervised learning technique: Non-contrastive learning », ai.facebook.com (consulté le 5 octobre 2021)
1 2 3 (en) Mahmoud Assran, Quentin Duval, Ishan Misra et Piotr Bojanowski, « Self-Supervised Learning From Images With a Joint-Embedding Predictive Architecture », openaccess.thecvf.com,‎ 2023, p. 15619–15629 (lire en ligne, consulté le 14 mars 2026).
↑ (en) Jure Zbontar, Li Jing, Ishan Misra et Yann LeCun, « Barlow Twins: Self-Supervised Learning via Redundancy Reduction », Proceedings of the 38th International Conference on Machine Learning, PMLR,‎ 1^er juillet 2021, p. 12310–12320 (lire en ligne, consulté le 14 mars 2026).
1 2 3 4 Adrien Bardes, Jean Ponce et Yann LeCun, VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning, 28 janvier 2022 (DOI 10.48550/arXiv.2105.04906, lire en ligne).
↑ (en) Galen Andrew, Raman Arora, Jeff Bilmes et Karen Livescu, « Deep Canonical Correlation Analysis », Proceedings of the 30th International Conference on Machine Learning, PMLR,‎ 26 mai 2013, p. 1247–1255 (lire en ligne, consulté le 14 mars 2026).
↑ (en) Alex Ing, Alvaro Andrades, Marco Raffaele Cosenza et Jan O. Korbel, « Integrating multimodal cancer data using deep latent variable path modelling », Nature Machine Intelligence, vol. 7, n^o 7,‎ 22 juillet 2025, p. 1053–1075 (ISSN 2522-5839, PMID 40709098, PMCID 12283373, DOI 10.1038/s42256-025-01052-4).
↑ LeCun Y (2022) A path towards autonomous machine intelligence version 0.9. 2, 2022-06-27. Open Review, 62(1), 1-62 |url=https://openreview.net/pdf?id=BZ5a1r-kVsf |consulté le=2026-03-14
↑ Quentin Garrido, Mahmoud Assran, Nicolas Ballas et Adrien Bardes, Learning and Leveraging World Models in Visual Representation Learning, 1^er mars 2024 (DOI 10.48550/arXiv.2403.00504).
↑ Adrien Bardes, Jean Ponce et Yann LeCun, MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features, 24 juillet 2023 (DOI 10.48550/arXiv.2307.12698).
↑ Ariel Larey, Elay Dahan, Amit Bleiweiss et Raizy Kellerman, JEPA-DNA: Grounding Genomic Foundation Models through Joint-Embedding Predictive Architectures, 19 février 2026 (DOI 10.48550/arXiv.2602.17162).
↑ Delong Chen, Mustafa Shukor, Theo Moutakanni et Willy Chung, VL-JEPA: Joint Embedding Predictive Architecture for Vision-language, 2 février 2026 (DOI 10.48550/arXiv.2512.10942).
↑ Zhengcong Fei, Mingyuan Fan et Junshi Huang, A-JEPA: Joint-Embedding Predictive Architecture Can Listen, 11 janvier 2024 (DOI 10.48550/arXiv.2311.15830).
↑ Basile Terver, Randall Balestriero, Megi Dervishi et David Fan, A Lightweight Library for Energy-Based Joint-Embedding Predictive Architectures, 6 février 2026 (DOI 10.48550/arXiv.2602.03604).
↑ Y. LeCun (2022), « A Path Towards Autonomous Machine Intelligence », version 0.9.2, 2022-06-27, PDF de présentation : http://kti.mff.cuni.cz/~bartak/ui_seminar/talks/YannLeCun-sagova.pdf ; consulté le 2026-03-14
↑ (en) Nina Shenker Tauris, « Yann LeCun: A Path Towards Autonomous Machine Intelligence », sur Shaped, 24 août 2022 (consulté le 14 mars 2026)
↑ « Denoising with a Joint-Embedding Predictive Architecture (D-JEPA) », ICLR 2025, PDF OpenReview, https://openreview.net/pdf?id=bf91cb42318dd7bfa52fd55870c57556b1820fea ; consulté le 2026-03-14).
↑ [vidéo] « odcast : VL-JEPA vs Transformers vs Diffusers. Joint Embedding Predictive Architecture for Vision-language. », 29 décembre 2025, 11:41 min (consulté le 14 mars 2026)
↑ (en) Francesco Piccoli, Gabriel Vogel et Jana M. Weber, « Joint embedding predictive architecture for self-supervised pretraining on polymer molecular graphs », Digital Discovery, vol. 5, n^o 2,‎ 18 février 2026, p. 819–834 (ISSN 2635-098X, DOI 10.1039/D5DD00308C).
↑ Mahmoud Assran, Quentin Duval, Ishan Misra et Piotr Bojanowski, Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture, 13 avril 2023 (DOI 10.48550/arXiv.2301.08243, lire en ligne)
↑ (en) Mahmoud Assran, Quentin Duval, Ishan Misra et Piotr Bojanowski, « Self-Supervised Learning From Images With a Joint-Embedding Predictive Architecture », Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),‎ 2023, p. 15619–15629 (lire en ligne, consulté le 14 mars 2026).
↑ Vimal Thilak, Chen Huang, Omid Saremi et Laurent Dinh, LiDAR: Sensing Linear Probing Performance in Joint Embedding SSL Architectures (DOI 10.48550/ARXIV.2312.04000, lire en ligne)
1 2 R. et L., « Problem Based Learning a Shift from Teaching Paradigm to the Learning Paradigm », Indian Journal of Dental Education, vol. 10, n^o 1,‎ 2017, p. 47–51 (ISSN 0974-6099, DOI 10.21088/ijde.0974.6099.10117.6, lire en ligne)
↑ Littwin et Wolf, « The Multiverse Loss for Robust Transfer Learning », 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE,‎ juin 2016, p. 3957–3966 (ISBN 978-1-4673-8851-1, DOI 10.1109/cvpr.2016.429, arXiv 1511.09033, S2CID 6517610, lire en ligne)
↑ (en) « Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing », Google AI Blog (consulté le 9 juin 2021).
↑ (en) Ethan Wilcox, Peng Qian, Richard Futrell et Ryosuke Kohita, « Structural Supervision Improves Few-Shot Learning and Syntactic Generalization in Neural Language Models », Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Stroudsburg, PA, USA, Association for Computational Linguistics,‎ 2020, p. 4640–4652 (DOI 10.18653/v1/2020.emnlp-main.375, arXiv 2010.05725, S2CID 222291675, lire en ligne).
↑ (en) Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre H. Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu, Rémi Munos et Michal Valko, « Bootstrap your own latent: A new approach to self-supervised Learning », 2020.

Apprentissage auto-supervisé

SSL contrasté

SSL non contrasté (NCSSL)

Joint‑Embedding Predictive Architectures (JEPA)

Comparaison avec d'autres formes d'apprentissage automatique

Exemples

Notes et références

Notes

Références

Voir aussi

Bibliographie

Related Articles