Espace latent
From Wikipedia, the free encyclopedia
Un espace latent est un plongement d'un ensemble d'éléments au sein d'une variété, dans laquelle les éléments similaires sont rapprochés. La position dans l'espace latent peut être considérée comme définie par un ensemble de variables latentes issues des similarités des objets.
Dans la plupart des cas, la dimensionnalité de l'espace latent est choisie inférieure à celle de l'espace des caractéristiques dont sont tirés les points de données, ce qui fait de la construction d'un espace latent un exemple de réduction de dimensionnalité, qui peut également être considérée comme une forme de compression de données[1]. Les espaces latents sont généralement ajustés via l'apprentissage automatique et ils peuvent ensuite être utilisés comme espaces de fonctionnalités dans les modèles d'apprentissage automatique, y compris les classificateurs et autres prédicteurs supervisés.
L'interprétation des espaces latents dans les modèles d'apprentissage automatique est un domaine de recherche en cours, mais parvenir à des interprétations claires reste un défi. La nature de boîte noire de ces modèles rend souvent l'espace latent peu intuitif, tandis que ses caractéristiques de grande dimension, complexes et non linéaires compliquent encore davantage sa compréhension[2]. L'analyse de la géométrie de l'espace latent des modèles de diffusion révèle une structure fractale des transitions de phase dans l'espace latent, caractérisée par des changements brusques dans la métrique de Fisher[3].
Certaines techniques de visualisation ont été développées pour relier l'espace latent au monde visuel, mais souvent il n'existe pas de lien direct entre l'interprétation de l'espace latent et le modèle lui-même. Parmi ces techniques, on trouve l'intégration stochastique des voisins distribués en t (t-SNE), où l'espace latent est mis en correspondance avec deux dimensions pour la visualisation. Les distances dans l'espace latent n'étant pas exprimées en unités physiques, leur interprétation peut dépendre de l'application.
Modèles de plongement

Plusieurs modèles de plongement ont été développés pour réaliser cette transformation et créer des plongements spatiaux latents à partir d'un ensemble de données et d'une fonction de similarité . Ces modèles apprennent les intégrations en exploitant des techniques statistiques et des algorithmes d'apprentissage automatique. Voici quelques modèles d'intégration couramment utilisés :
- Word2Vec[4] : Word2Vec est un modèle d'intégration populaire utilisé en traitement automatique du langage naturel (TALN). Il apprend les plongements de mots en entraînant un réseau de neurones sur un vaste corpus de texte. Word2Vec capture les relations sémantiques et syntaxiques entre les mots, permettant ainsi des calculs cohérents comme les analogies de mots.
- GloVe[5] : GloVe (Global Vectors for Word Representation) est un autre modèle de plongement largement utilisé en TALN. Il combine des informations statistiques globales issues d'un corpus avec des informations contextuelles locales pour apprendre les plongements de mots. Les plongements GloVe sont connus pour capturer les similarités sémantiques et relationnelles entre les mots.
- Réseaux siamois : Les réseaux siamois sont un type d'architecture de réseau de neurones couramment utilisé pour le plongement basé sur la similarité. Ils sont constitués de deux sous-réseaux identiques qui traitent deux échantillons d'entrée et produisent leurs plongements respectifs. Les réseaux siamois sont souvent utilisés pour des tâches telles que la similarité d'images, les systèmes de recommandation et la reconnaissance faciale.
- Autoencodeurs variationnels (VAE)[6] : les VAE sont des modèles génératifs qui apprennent simultanément à encoder et décoder des données. L'espace latent des VAE agit comme un espace d'inclusion. En entraînant les VAE sur des données de grande dimension, telles que des images ou des fichiers audio, le modèle apprend à encoder les données dans une représentation latente compacte. Les VAE sont connus pour leur capacité à générer de nouveaux échantillons de données à partir de l'espace latent appris.
Multimodalité
La multimodalité désigne l'intégration et l'analyse de multiples modes ou types de données au sein d'un même modèle ou cadre. Le plongement de données multimodales implique la capture des relations et des interactions entre différents types de données, tels que les images, le texte, l'audio et les données structurées.
Les modèles de plongement multimodaux visent à apprendre des représentations conjointes qui fusionnent des informations issues de plusieurs modalités, permettant ainsi des analyses et des tâches intermodales. Ces modèles permettent des applications telles que le sous-titrage d'images, la réponse visuelle aux questions et l'analyse multimodale des sentiments.
Pour réaliser le plongement des données multimodales, des architectures spécialisées telles que les réseaux multimodaux profonds ou les transformateurs multimodaux sont utilisées. Ces architectures combinent différents types de modules de réseaux de neurones pour traiter et intégrer des informations issues de différentes modalités. Les intégrations ainsi obtenues capturent les relations complexes entre différents types de données, facilitant ainsi l'analyse et la compréhension multimodales.
Applications
Le plongement de l'espace latent et les modèles de plongement multimodaux ont trouvé de nombreuses applications dans divers domaines :
- recherche d'informations : les techniques de plongement permettent des systèmes de recherche de similarité et de recommandation efficaces en représentant des points de données dans un espace compact ;
- traitement du langage naturel : les plongements de mots ont révolutionné les tâches de PNL telles que l'analyse des sentiments, la traduction automatique et la classification des documents ;
- vision par ordinateur : Le plongement d'images et de vidéos permet des tâches telles que la reconnaissance d'objets, la récupération d'images et le résumé de vidéos ;
- systèmes de recommandation : les plongements aident à capturer les préférences des utilisateurs et les caractéristiques des articles, permettant ainsi des recommandations personnalisées ;
- soins de santé : des techniques de plongement ont été appliquées aux dossiers médicaux électroniques, à l’imagerie médicale et aux données génomiques pour la prédiction, le diagnostic et le traitement des maladies ;
- systèmes sociaux : les techniques de plongement peuvent être utilisées pour apprendre des représentations latentes de systèmes sociaux tels que les systèmes de migration interne[7], les réseaux de citations académiques[8] et les réseaux commerciaux mondiaux[9].