Espace latent - Wikiwand

Un espace latent est un plongement d'un ensemble d'éléments au sein d'une variété, dans laquelle les éléments similaires sont rapprochés. La position dans l'espace latent peut être considérée comme définie par un ensemble de variables latentes issues des similarités des objets.

Dans la plupart des cas, la dimensionnalité de l'espace latent est choisie inférieure à celle de l'espace des caractéristiques dont sont tirés les points de données, ce qui fait de la construction d'un espace latent un exemple de réduction de dimensionnalité, qui peut également être considérée comme une forme de compression de données^[1]. Les espaces latents sont généralement ajustés via l'apprentissage automatique et ils peuvent ensuite être utilisés comme espaces de fonctionnalités dans les modèles d'apprentissage automatique, y compris les classificateurs et autres prédicteurs supervisés.

L'interprétation des espaces latents dans les modèles d'apprentissage automatique est un domaine de recherche en cours, mais parvenir à des interprétations claires reste un défi. La nature de boîte noire de ces modèles rend souvent l'espace latent peu intuitif, tandis que ses caractéristiques de grande dimension, complexes et non linéaires compliquent encore davantage sa compréhension^[2]. L'analyse de la géométrie de l'espace latent des modèles de diffusion révèle une structure fractale des transitions de phase dans l'espace latent, caractérisée par des changements brusques dans la métrique de Fisher^[3].

Certaines techniques de visualisation ont été développées pour relier l'espace latent au monde visuel, mais souvent il n'existe pas de lien direct entre l'interprétation de l'espace latent et le modèle lui-même. Parmi ces techniques, on trouve l'intégration stochastique des voisins distribués en t (t-SNE), où l'espace latent est mis en correspondance avec deux dimensions pour la visualisation. Les distances dans l'espace latent n'étant pas exprimées en unités physiques, leur interprétation peut dépendre de l'application.

Plusieurs modèles de plongement ont été développés pour réaliser cette transformation et créer des plongements spatiaux latents à partir d'un ensemble de données et d'une fonction de similarité . Ces modèles apprennent les intégrations en exploitant des techniques statistiques et des algorithmes d'apprentissage automatique. Voici quelques modèles d'intégration couramment utilisés :

Word2Vec^[4] : Word2Vec est un modèle d'intégration populaire utilisé en traitement automatique du langage naturel (TALN). Il apprend les plongements de mots en entraînant un réseau de neurones sur un vaste corpus de texte. Word2Vec capture les relations sémantiques et syntaxiques entre les mots, permettant ainsi des calculs cohérents comme les analogies de mots.
GloVe^[5] : GloVe (Global Vectors for Word Representation) est un autre modèle de plongement largement utilisé en TALN. Il combine des informations statistiques globales issues d'un corpus avec des informations contextuelles locales pour apprendre les plongements de mots. Les plongements GloVe sont connus pour capturer les similarités sémantiques et relationnelles entre les mots.
Réseaux siamois : Les réseaux siamois sont un type d'architecture de réseau de neurones couramment utilisé pour le plongement basé sur la similarité. Ils sont constitués de deux sous-réseaux identiques qui traitent deux échantillons d'entrée et produisent leurs plongements respectifs. Les réseaux siamois sont souvent utilisés pour des tâches telles que la similarité d'images, les systèmes de recommandation et la reconnaissance faciale.
Autoencodeurs variationnels (VAE)^[6] : les VAE sont des modèles génératifs qui apprennent simultanément à encoder et décoder des données. L'espace latent des VAE agit comme un espace d'inclusion. En entraînant les VAE sur des données de grande dimension, telles que des images ou des fichiers audio, le modèle apprend à encoder les données dans une représentation latente compacte. Les VAE sont connus pour leur capacité à générer de nouveaux échantillons de données à partir de l'espace latent appris.

Multimodalité

La multimodalité désigne l'intégration et l'analyse de multiples modes ou types de données au sein d'un même modèle ou cadre. Le plongement de données multimodales implique la capture des relations et des interactions entre différents types de données, tels que les images, le texte, l'audio et les données structurées.

Les modèles de plongement multimodaux visent à apprendre des représentations conjointes qui fusionnent des informations issues de plusieurs modalités, permettant ainsi des analyses et des tâches intermodales. Ces modèles permettent des applications telles que le sous-titrage d'images, la réponse visuelle aux questions et l'analyse multimodale des sentiments.

Pour réaliser le plongement des données multimodales, des architectures spécialisées telles que les réseaux multimodaux profonds ou les transformateurs multimodaux sont utilisées. Ces architectures combinent différents types de modules de réseaux de neurones pour traiter et intégrer des informations issues de différentes modalités. Les intégrations ainsi obtenues capturent les relations complexes entre différents types de données, facilitant ainsi l'analyse et la compréhension multimodales.

Applications

Voir aussi

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Latent space » (voir la liste des auteurs).

↑ (en) Yang Liu, Eunice Jun, Qisheng Li et Jeffrey Heer, « Latent Space Cartography: Visual Analysis of Vector Space Embeddings », Computer Graphics Forum, vol. 38, n^o 3,‎ juin 2019, p. 67–78 (ISSN 0167-7055, DOI 10.1111/cgf.13672, S2CID 189858337).
↑ (en) Ziqiang Li, Rentuo Tao, Jie Wang et Fu Li, « Interpreting the Latent Space of GANs via Measuring Decoupling », IEEE Transactions on Artificial Intelligence, vol. 2, n^o 1,‎ février 2021, p. 58–70 (ISSN 2691-4581, DOI 10.1109/TAI.2021.3071642, Bibcode 2021ITAI....2...58L, S2CID 234847784).
↑ (en) A. Lobashev, D. Guskov, M. Larchenko et M. Tamm, « Hessian Geometry of Latent Space in Generative Models », International Conference on Machine Learning ICML 2025, 11 juillet 2025 (consulté le 23 juillet 2025).
↑ (en) Tomas Mikolov, Ilya Sutskever, Kai Chen et Greg S Corrado, « Distributed Representations of Words and Phrases and their Compositionality », Advances in Neural Information Processing Systems, Curran Associates, Inc., vol. 26,‎ 2013 (arXiv 1310.4546, lire en ligne)
↑ (en) Jeffrey Pennington, Richard Socher et Christopher Manning, Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar, Association for Computational Linguistics, octobre 2014, 1532–1543 p. (DOI 10.3115/v1/D14-1162), « Glove: Global Vectors for Word Representation »
↑ (en) Diederik P. Kingma et Max Welling, « An Introduction to Variational Autoencoders », Foundations and Trends in Machine Learning, vol. 12, n^o 4,‎ 27 novembre 2019, p. 307–392 (ISSN 1935-8237, DOI 10.1561/2200000056, arXiv 1906.02691, S2CID 174802445, lire en ligne)
↑ (en) Furkan Gürsoy et Bertan Badur, « Investigating internal migration with network analysis and latent space representations: an application to Turkey », Social Network Analysis and Mining, vol. 12, n^o 1,‎ 6 octobre 2022, p. 150 (ISSN 1869-5469, PMID 36246429, PMCID 9540093, DOI 10.1007/s13278-022-00974-w).
↑ (en) Kimitaka Asatani, Junichiro Mori, Masanao Ochi et Ichiro Sakata, « Detecting trends in academic research from a citation network using network representation learning », PLOS ONE, vol. 13, n^o 5,‎ 21 mai 2018 (ISSN 1932-6203, PMID 29782521, PMCID 5962067, DOI 10.1371/journal.pone.0197260, Bibcode 2018PLoSO..1397260A).
↑ (en) Guillermo García-Pérez, Marián Boguñá, Antoine Allard et M. Ángeles Serrano, « The hidden hyperbolic geometry of international trade: World Trade Atlas 1870–2013 », Scientific Reports, vol. 6, n^o 1,‎ 16 septembre 2016 (ISSN 2045-2322, PMID 27633649, PMCID 5025783, DOI 10.1038/srep33441, Bibcode 2016NatSR...633441G, arXiv 1512.02233).

Portail de l’intelligence artificielle

Related Articles