Modèle de monde

From Wikipedia, the free encyclopedia

Le modèle de monde (World model ou WM), dans le domaine de l'intelligence artificielle et de la robotique cognitive, est  par analogie avec le modèle mental  le modèle interne du monde que peut se créer un agent intelligent artificiel. C'est « un substitut algorithmique de l'environnement réel avec lequel les agents biologiques vivent et sur lequel ils agissent »[1] ; c'est une représentation « interne », « une représentation spatiale et temporelle compressée de l'environnement »[2] qu'un système d'IA (ou un agent artificiel) construit de son environnement. Ce modèle génératif interne permet à l'IA qui en est dotée de se représenter l'état et la dynamique évolutive de son environnement, ainsi que les conséquences possibles de ses actions dans et sur cet environnement. Il doit lui permettre de prédire l'évolution des situations, de simuler des scénarios possibles pour guider, planifier et évaluer ses décisions dans cet espace « simulé », avant d'éventuellement s'engager dans le monde réel[2],[3],[4]. Une IA peut aussi s'entraîner presque entièrement dans ce monde simulé[2].

Concernant les animaux (humains, notamment), on dit que leur modèle de monde, en grande partie issu d'expériences vécues, sensorimotrices, est « incarné ». Les LLM n'ont, eux, ni corps, ni organes de perception directe, ni interaction physique directes avec l'environnement ; et ils n'ont pas été programmés pour avoir un modèle de monde. Une hypothèse est qu'ils peuvent néanmoins indirectement déduire de leur accès au langage humain une sorte de modèle intérieur du monde, désincarné, indirect et probabiliste, mais cohérent avec les représentations humaines du monde.

La notion de modèle de monde devient centrale en robotique autonome et pour les véhicules autonomes, ainsi que pour l'apprentissage par renforcement et dans les approches d'apprentissage auto-supervisé ou de modèles génératifs. Dans tous les cas, pour que le modèle de monde soit utile, un équilibre délicat est à trouver, selon les besoins et enjeux contextuels, entre préservation et compression de l'information.

Définition et principes généraux

Un « modèle de monde » peut être défini comme un ensemble de représentations internes et de règles (souvent probabilistes) qui approximent la structure de l'environnement, et la manière dont celui-ci évolue au cours du temps[2],[3]. Dans de nombreux systèmes récents d'IA, ce modèle est implémenté par un réseau de neurones artificiels, par exemple un modèle génératif qui prédit des états ou des évolutions futures, à partir d'observations et d'actions passées[2],[5].

Le modèle de monde se construit via des architectures de modélisation (ex. : transformeurs, RNN et SSM ou Structured State Space Models, une famille récente de modèles séquentiels, qui concurrencent les transformeurs, et qui permettent de modéliser des séquences longues avec une dynamique interne stable, ce qui les rend utiles pour les modèles de monde continus (en robotique, vidéo ou pour l'IA agentique)[6]. Les modèles de monde se construisent aussi avec des algorithmes d’entraînement (ex. : entraînement autorégressif, modélisation par diffusion, apprentissage par renforcement et flux normalisant) et par une construction et des mises à jour de jeux de données représentant des états passés et un état présent du monde du robot ou de l'IA. Pour qu'un robot ou une IA puissent interagir avec le monde réel, ils ne doivent pas seulement comprendre les situations du passé et l'instant ; ils doivent aussi anticiper ce qui va se passer ou pouvoir se passer ensuite (par analogie, on peut parler d'imagination). Parmi les fonctions principales d'un bon modèle de monde, figure donc :

  • une certaine capacité de prédiction (anticiper des situations et états futurs, par la simulation ;
  • une capacité de prospective (imaginer et classer des scénarios hypothétiques) ;
  • une capacité à planifier (choisir une séquence d'actions en fonction de données disponibles ou déduites) ;
  • une capacité d'évaluation (estimer les conséquences ou le « coût » des actions possibles, et de l'inaction, pour notamment savoir si un objectif a été atteint)[2],[3].

Pour anticiper, le modèle de monde doit intégrer la causalité, et donc être spatial, mais aussi temporel ; c'est là qu'interviennent les modèles de séquence.

Contrairement aux capacités basiques d'une IA qui ne fait qu'analyser une image isolée, les modèles de séquence (comme les architectures Transformeurs ou les réseaux récurrents) traitent de la dimention temporelle, en analysant des flux de données temporellement ordonnées, que l'on trouve par exemple dans des vidéos, du son ou des mouvements acquis par des capteurs). Ces architectures permettent à la machine de comprendre la dynamique de son environnement, et dans une certaine mesure d'anticiper. Cette capacité est cruciale pour l'autonomie. Par exemple, pour qu'un robot puisse attraper un objet au vol ou naviguer dans une foule ou un environnement complexe ou dangereux, il doit simuler mentalement les étapes suivantes de la scène. Sans cette intégration du temps, l'IA resterait limitée à une vision statique, incapable de planifier ses actions ou d'apprendre de ses erreurs de trajectoire. La maîtrise du temps par les modèles de séquence est donc un moteur de l'intelligence pratique. L'IA ou un agent intelligent au sein d'une IA agentique ne peut traiter le temps que s'il dispose d'une mémoire adéquate du passé. Des architectures intégrant un Réseau de neurones récurrents (RNN), et une mémoire (Long Short-Term Memory ou LSTM, capables de conserver ou d'oublier sélectivement des informations sur de longues durée, un peu comme le fait le cerveau animal) ont historiquement introduit la « mémoire » dans les réseaux de neurones artificiels. Et les transformeurs, bien que traitant les données en parallèle, utilisent des mécanismes d'attention pour reconstruire l'ordre et les relations au sein d'une séquence.
Ces modèles de monde sont particulièrement utiles quand on souhaite économiser des interactions en raisonnant dans un monde simulé. Ils le sont aussi quand l'exploration réelle du monde est dangereuse et/ou coûteuse en ressources, par exemple pour des robots autonomes, éventuellement petits et fragiles, qui doivent se déplacer en évitant des collisions, en limitant les mouvements dangereux et en adaptant leur niveau de prudence au contexte[7],[8].

La littérature oppose parfois les systèmes « avec modèles de monde », aux approches dites « model-free », où l'agent apprend ou met en œuvre une action ou une suite ou stratégie d'actions sans tenir compte de la dynamique de l'environnement. Ces modèles peuvent apprendre un large éventail de compétences (robotiques notamment), mais nécessitent généralement un très grand nombre d’échantillons pour obtenir de bonnes performances[9].

Typologie

En septembre 2025, une revue d'étude[10] classe les modèles de monde disponibles dans quelques domaines clés comme la conduite autonome, la robotique et les simulacres sociaux ; selon leurs deux fonctions principales :

  1. « construire des représentations internes pour comprendre les mécanismes du monde » ;
  2. « prédire les états futurs pour simuler et guider la prise de décision ».

.. tout en insistant sur les défis, perspectives et orientations futures de la recherche.

En 2026, Jiahua Dong et al. classent les « modèles de monde » en quatre grandes catégories[11] :

  1. modèles de monde génératifs au niveau des observations ;
  2. modèles de monde en espace latent ;
  3. modèles de monde fondés sur l’apprentissage par renforcement ;
  4. modèles de monde centrés sur les objets.

Modèles de monde versus jumeau numérique

Le modèle de monde d'une IA n'est pas un jumeau numérique, même si des recherches récentes, par exemple de Zheng et al. en 202, montrent des convergences entre ces deux concepts, accélérée par « l'évolution rapide vers la 6G et au-delà des systèmes de communication (...) à la périphérie du réseau » : les modèles de monde peuvent renforcer l'autonomie et la capacité prédictive des jumeaux numériques, et ces derniers, bien qu'encore limités en autonomie, adaptabilité et évolutivité, peuvent être un environnement d'entraînement virtuel mais réaliste pour les modèles de monde[12],[13].

Cette articulation entre deux types différents de représentation du monde, encore en développement, pourrait être un axe majeur de l'évolution des systèmes cyber‑physiques et de l'IA industrielle, et pourrait jouer un rôle dans le chemin vers l'intelligence artificielle générale en périphérie (EGI, pour Edge general intelligence, une IA capable de percevoir, modéliser et anticiper son environnement local, en fonctionnant directement sur des « ressources edge » (datacenters, robots, drones, véhicules, capteurs intelligents[13]... Selon Jie Zheng et al. (2026), une évolution d'architecture et un changement de paradigme sont possible : les chercheurs pourraient faire évoluer les systèmes basés (au milieu des années 2020) sur des jumeaux numériques (des modèles généralement centralisés dans un datacenter et fondés sur des modèles physiques globaux du système), vers des « modèles  internes  du monde » (appris à partir de données qui seraient les observations locales collectées par des agents à la périphérie du réseau — images, vidéos, capteurs, télémétrie, signaux radio, interactions et retours d'expérience et d'environnement — à partir desquelles l'agent apprend son propre modèle interne du monde). Ces modèles internes, distribués entre les agents, leur permettraient de mieux comprendre leur environnement et de devenir plus autonomes.
Cette évolution permettrait des systèmes rendus plus adaptatifs et plus efficaces, grâce à une décentralisation de l'intelligence artificielle vers la périphérie (edge) du réseau (c'est-à-dire dans les dispositifs informatiques situés dans les bords extérieurs du réseau des datacenters, là où des agents de l'intelligence agentique comme des robots, véhicules autonomes, capteurs, antennes 5G/6G ou autres objets connectés, doivent « agir » ou « réagir » en temps réel, seuls, ou en réseau ou en essaims). Cette décentralisation rend possible une intelligence plus autonome (moins dépendante du Cloud), plus réactive et adaptative, et in fine plus économe en ressources dans des environnements dynamiques[13].

Origine et histoire de ce concept

Au milieu des années 1980, alors que dans le domaine du machine learning émerge l'apprentissage par renforcement, notamment avec les travaux fondateurs de Sutton sur l’apprentissage temporel[14], on comprend intuitivement qu'un agent artificiel pour devenir autonome doit avoir une bonne représentation des états passés et présents de son environnement contextuel, et d'un bon modèle prédictif du futur, de préférence un modèle prédictif puissant implémenté sur un ordinateur à usage général, par exemple dans un réseau neuronal récurrent (RNN). Cette approche est formalisée en 1990 par Schmidhuber[15],[16].

Les « modèles de monde » se sont d'abord centrés sur la modélisation de grandeurs physiques et d'interactions de bas niveau à l'aide de RNN.
Puis le concept a évolué vers une simulation du monde réel (avec Sora et Genie par exemple) et vers une génération interne d'environnements de plus en plus complexes, réalistes et de haute dimension[17].

Racines dans le domaine de la psychologie cognitive

L'idée qu'un agent intelligent puisse ou doive posséder une représentation interne du monde remonte aux recherches en psychologie cognitive et en sciences cognitives sur les « modèles mentaux » et la « cartographie cognitive »[18].

La psychologie et l'éthologie ont montré que les humains et les animaux se construisent des représentations internes du monde (modèle mental) pour mieux s'y déplacer et prédire les conséquences de leurs actions. Cette représentation interne du monde leur est nécessaire pour comprendre les systèmes physiques et interagir avec eux. Les réseaux de neurones artificiels sont inspirés du cerveau ; et la psychologie a inspiré  par analogie  certaines approches en IA[18]. Ainsi, des modèles de type « predictive coding », où le cerveau est vu comme un système qui prédit en permanence ses entrées sensorielles et corrige ses erreurs, ont influencé la conception de modèles de monde en apprentissage auto-supervisé[18] ; cette métaphore de « prédiction en continu » est réutilisée dans plusieurs architectures d'IA modernes, notamment dans les approches JEPA après qu'Yann LeCun ait proposé, en 2022, une architecture permettant, selon lui, de créer des agents autonomes capables d'apprendre, raisonner et planifier aussi efficacement que les humains, en combinant 1) un modèle de monde prédictif configurable ; 2) une motivation intrinsèque et 3) des représentations hiérarchiques apprises en auto‑supervision. Avec le JEPA, il ne s'agit plus de reconstruire une image, une phrase ou un segment de données, mais de prédire dans l'espace latent, le futur d’une scène ; cela modifie la nature de l’apprentissage, où au lieu de reproduire des détails visuels ou linguistiques, l’architecture apprend à identifier les éléments stables, les régularités, les lois implicites. L'architecture de l'agent autonome serait alors composée d'un « configurateur » qui ajuste les autres modules (perception, modèle de monde, coût, mémoire et acteur) afin que l'agent puisse percevoir l'environnement, prédire plusieurs futurs possibles, évaluer les actions selon des coûts intrinsèques et appris, et in fine choisir les actions minimisant ce niveau d'énergie. L'Agent comporterait un module appelé Critic) apprenant à prédire le niveau futur de « coût intrinsèque » (ou d'énergie) associé aux états possibles du monde, afin d'aider l'agent à évaluer si une action le rapproche ou l'éloigne de situations favorables, ce module "Critic chargé d'estimer si les états futurs du monde seront favorables ou défavorables à ses projets d'action. Pour cela, ce module apprendrait à prédire le « coût intrinsèque » associé à ces états en consultant une « mémoire associative » (stock des états passés et les niveaux de coût qui leur ont succédé). Le module ajuste ensuite ses paramètres pour réduire l'écart entre ses prédictions et ces valeurs réelles, en s'appuyant sur un mécanisme de mémoire clé‑valeur capable d'interpoler entre les expériences et de permettre un apprentissage rapide (en un seul essai idéalement)[19]. Pour hiérarchiser les enjeux et réponses, Y. LeCun propose aussi d'orienter le modèle JEPA vers des représentations utiles (en ajoutant des têtes de prédiction liées à des variables pertinentes pour une classe de tâches) ; une version hiérarchique du JEPA (H‑JEPA) pourrait alors apprendre des représentations à plusieurs niveaux d'abstraction (les niveaux bas prédiraient le court terme avec beaucoup de détails, tandis que les niveaux hauts permettraient des prédictions plus longues mais plus abstraites), rendant possible une planification multi‑échelle et hiérarchisée où les tâches complexes seraient décomposées en sous‑tâches de plus en plus fines, selon les besoins de l'IA[19].

Les « modèles de monde », classiques, disponibles au milieu des années 2020, apprennent surtout à imiter les données du monde réel et à rejouer mentalement le passé pour mieux prédire ce qui va probablement arriver. Ceci ne suffit pas pour qu’un agent comprenne réellement son environnement, car ne garantit pas qu’il saisisse les relations de cause à effet. On cherche donc à mieux intégrer la causalité pour distinguer ce qui change vraiment le monde (causes) de ce qui n’est qu’une corrélation superficielle. Mengyue Yang (de l'université de Bristol) en 2026 s’appuie sur la hiérarchie causale de Judea Pearl — association, intervention, contrefactuel — pour montrer que comprendre le monde implique de pouvoir répondre non seulement à la question « que se passe‑t‑il ? », mais aussi à la question « que se passerait‑il si j’agissais autrement ? » et « qu’est‑ce qui se serait passé si j’avais fait un autre choix (y compris celui de ne pas agir) » ; le modèle causal du monde doit donc maintenant apprendre à créer des représentations internes qui désenchevêtrent bien les vrais facteurs (physiques, écologiques et sociaux) qui font et expliquent le monde (dans le modèle interne du monde de l'IA ou du robot, ceci correspond à un démêlage des variables latentes de ce modèle), afin de clairement identifier les structures causale reliant ces facteurs[20].

- c'est un défi dans les grands environnements complexes et ouverts (états infinis, agents multiples, règles changeantes, causalité instable). Dans ces mondes l'agent doit continuellement explorer, mettre à jour sa compréhension causale et détecter les « dérives causales » — des changements dans la manière dont les actions influencent le monde.
- En 2025, un méta-Graphe causal (représentation modélisée compacte des changements de structure causale, regroupant plusieurs sous‑graphes activés par des méta‑états latents) a été couplé à un « agent chercheur de causalité » (chargé d’explorer l’environnement pour identifier, tester et affiner des relations causales dans ces méta‑états, guidé par la curiosité), pour affiner progressivement le méta‑graphe. Cette méthode a permis de capturer, de manière robuste, des dynamiques causales non stationnaires. Elle peut être généralisée à des contextes encore inédits.

Dans les approches récentes, les agents cherchent activement les causes de ce qu'ils observent, mettent à jour leur graphe causal et utilisent ces connaissances pour mieux planifier, interagir avec les humains ou apprendre plus efficacement.

Capacités émergentes à créer un modèle de monde

Certaines architectures modernes d'apprentissage profond semblent manifester une capacité émergente à spontanément construire des modèles de monde. Souvent cette capacité n'est pas surprenante, dans la mesure où elles apprennent à prédire l'évolution d'un environnement, à représenter ses régularités et à simuler des états futurs à partir de données sensorielles riches, sans supervision explicite, mais parfois cette capacité est plus inattendue par exemple pour un modèle conçu pour jouer aux échecs[21],[22],[23],[24].

De telles émergences sont observées ou déjà valorisées, notamment dans :

  • les modèles vidéo prédictifs (comme Deep Planning Network dit PlaNet, ou Dreamer publié en 2019) sont capables d'anticiper (imaginer) des séquences visuelles sur plusieurs pas de temps (c'est-à-dire plusieurs échelles temporelles) :
    • PlaNet est un agent, basé sur des modèles, qui apprend la dynamique de l'environnement à partir d'images, et choisit les actions grâce à une planification rapide en ligne dans l'espace latent[25] ;
    • Dreamer est un agent d'apprentissage par renforcement qui peut réaliser des tâches à long terme, à partir d'images uniquement par imagination latente (ce qui signifie que Dreamer peut en quelque sorte imaginer des futurs possibles dans sa représentation abstraite et interne du monde, comme s'il pouvait « rêver » des scénarios futurs dans son espace latent, sans avoir besoin de calculer des images complètes, ce qui serait trop lent et/ou très coûteux en ressources) ;
  • les architectures JEPA (apparues en 2022 chez Meta), qui apprennent des représentations internes structurées utiles pour la prédiction ;
  • les modèles récurrents ou transformeurs entraînés sur de longues séquences multimodales.

Dans ces systèmes, le « modèle de monde » n'est pas programmé à la main : il apparaît comme une propriété émergente de l'apprentissage auto‑supervisé, lorsque le réseau doit comprendre la dynamique sous‑jacente d'un environnement pour réduire l'erreur de prédiction.

Hypothèse et indices de l'existence d'un « Collective World Model »

Cette hypothèse postule qu'un grand modèle de langage (LLM) ne peut pas acquérir ni construire un modèle de monde à partir de sa seule exposition textuelle ; mais qu'il peut  indirectement  en construire une approximation statistique, à partir d'une sorte de méta-modèle de monde déjà encodé collectivement dans le langage humain via les processus sociaux ; l'IA, compétente pour détecter et analyser les régularités statistiques du langage, pourrait reconstruire une partie de la structure du monde (celle qui est reflétée dans le langage humains et dans les autres productions humaines disponibles sur le Web sous forme de sons, images fixes, cartes, plans, vidéos), car le langage humain a encodé des concepts, des relations causales, des régularités du monde physique et social, des structures narratives, des catégories culturelles, etc.[26].

Selon Tadahiro Taniguchi et al. (2024) cette idée peut être formalisée au moyen d'un cadre Generative Emergent Communication, fondé sur le Collective Predictive Coding, qui décrit l'émergence du langage comme une inférence bayésienne décentralisée entre agents. Ce processus est interprété comme une structure encodeur‑décodeur à l'échelle de la société et des civilisations humaine : chaque humain encode sa représentation du monde dans son modèle mental. L'humanité a encodé ces représentations internes du monde dans les langages oraux, écrits et, depuis quelques décennies, numériques L'hypothèse du « Collective World Model » et que les LLM pourraient maintenant, éventuellement spontanément, décoder ce modèle de monde collectif, pour reconstruire dans leur espace latent structuré un modèle de monde reflétant ces représentations collectives[26]. Cette approche fournit une explication théorique à certaines capacités des LLM, et éclaire des phénomènes tels que la sémantique distributionnelle (qui postule que le sens d'un mot peut être inféré à partir des contextes linguistiques dans lesquels il apparaît, en supposant que des mots ayant des usages similaires ont des significations proches).

Tadahiro Taniguchi et al. (2024) ont formalisé un cadre Generative EmCom et l'ont appliqué à l'interprétation des LLM, établissant un lien entre développement cognitif individuel, évolution du langage et fondements de l'IA à grande échelle[26].

Robotique, systèmes embarqués et « modèles de séquences »

En robotique, le terme « world model » (ou « robot world model( » est utilisé depuis plusieurs décennies pour désigner une base de données structurée décrivant l'environnement du robot, ses objets et parfois leur dynamique[27]. Ces modèles se sont développés avec l'apparition de robots ou véhicules devant se déplacer et se repérer dans un environnement inconnu ou changeant. Ces machines, plus ou moins autonomes, ont été rendues capables de construire des cartes de leur environnement via des systèmes de capteurs et de localisation et cartographie simultanées (ou SLAM pour Simultaneous Localization And Mapping) leur permettant notamment de planifier des trajectoires[27].

Plus récemment, après l'essor des techniques de vision artificielle, des modèles de séquences ont permis à des robots de mieux apprendre ou acquérir des modèles de monde fondés sur de grandes quantités de données de type « sensorielles » (images ou vidéos, éventuellement captées dans le spectre infrarouge ou UV ; données audio ou électromagnétiques, données issues de capteurs inertiels...). Ces modèles appris suppléent ou remplacent parfois les cartes géométriques classiques, en intégrant des connaissances fonctionnelles sur les objets et les interactions[3].

En 2026, Yin et al. publient PlayWorld, une méthode et un cadre d’apprentissage robotique, permettant à un agent (robot doté d'une IA) de se construire lui-même un « modèle interne du monde », uniquement à partir d'une exploration libre de son environnement, sans démonstrations humaines ; simplement en collectant spontanément des interactions variées, le robot acquiert un « simulateur de vision (vidéo) » capable de prédire des dynamiques physiques complexes et de nombreux types de contacts physiques avec son environnement. La méthode surpasse les modèles entraînés sur des données humaines. Ce modèle de monde améliore la prédiction des échecs, l’évaluation de stratégies de choix, et permet d’entraîner un agent en apprentissage par renforcement directement dans la simulation générée, avec des gains de performance significatifs lors du déploiement réel[28].

Apprentissage automatique et modèles génératifs

Dans l'apprentissage automatique, les modèles de monde sont étroitement liés aux approches de contrôle « model-based » en apprentissage par renforcement, où l'agent apprend explicitement un modèle de la dynamique de l'environnement pour planifier[5]. Des travaux de Schmidhuber et de ses collaborateurs, sur les réseaux récurrents, dans les années 1990, ont exploré l'usage de réseaux de neurones pour modéliser des environnements séquentiels, préfigurant les modèles de monde neuronaux modernes.

La publication du travail « World Models » de David Ha et Jürgen Schmidhuber en 2018 a popularisé le terme dans le contexte de l'apprentissage profond[2]. Dans cet article, les auteurs montrent qu'un agent peut apprendre un modèle génératif récurrent de son environnement (un « world model ») en mode non supervisé, puis apprendre une politique de contrôle simple qui exploite ce modèle pour agir, parfois même en étant entraînée entièrement dans le monde simulé par le modèle. Ce travail a été suivi de nombreuses variantes, notamment avec la suite de modèle Dreamer, qui apprennent un modèle latent de l'environnement pour planifier des actions « en imagination »[5], [2],[3].

Rôle dans les systèmes intelligents

Planification et prise de décision

Un modèle de monde permet à un agent (robot, algorithme...) d'évaluer les conséquences de différentes séquences d'actions avant de les exécuter dans le monde réel. En pratique, l'agent utilise le modèle pour simuler plusieurs futurs possibles, comparer leur qualité (par exemple en termes de récompense attendue) et choisir la séquence qui semble la plus adaptée. Ce type de planification « en imagination » est particulièrement utile lorsque les essais et erreurs réels sont coûteux, dangereux ou lents, par exemple pour des robots physiques ou des systèmes embarqués. Les modèles de monde peuvent ainsi réduire le nombre d'interactions nécessaires dans le monde réel tout en permettant à l'agent d'expérimenter virtuellement des stratégies alternatives[7],[27],[2].

Prédiction et compréhension du contexte

Les modèles de monde servent également à prédire l'évolution de scènes visuelles, d'états physiques ou de situations abstraites, ce qui aide l'agent à comprendre le contexte dans lequel il agit ; par exemple, dans la prédiction de vidéos, un modèle peut apprendre à anticiper les mouvements d'objets ou d'agents dans une scène, ce qui fournit une base pour la navigation ou l'interaction.

En apprentissage auto-supervisé, les architectures de type JEPA (Joint Embedding Predictive Architecture) visent à apprendre des représentations internes permettant de prédire des aspects pertinents du monde, sans reconstruire tous les détails observables du monde[4],[18] ; ce genre de « modèles de monde en espace de représentation » est conçu pour capter les structures porteuses de sens plutôt que les informations prédictibles au niveau pixel[4],[18].

En 2024, des chercheurs (incluant Y. LeCun) ont inclus dans une architecture JEPA un modèle de monde visuel pré‑entraîné (fine-tuné) de type Image World Models (IWM), c'est-à-dire entraîné en auto‑supervision à prédire dans un espace latent les effets de transformations appliquées à une image — qu'il s'agisse de masquage, de modifications photométriques ou d’autres corruptions — pour produire des représentations visuelles réutilisables et contrôlables. Ce modèles de monde s'est avéré aussi efficace voire meilleur que les autres systèmes autosupervisés existants. Selon les auteurs sa performance dépendait principalement sur trois facteurs : 1) le conditionnement, 2) la difficulté de la prédiction et 3) la capacité du modèle, mais il a permis de contrôler le niveau d’abstraction des représentations apprises, allant d’invariances proches des méthodes contrastives à des représentations équivariantes typiques du masked image modeling, ce qui positionne les « modèles visuels du monde » comme un cadre unificateur pour l’apprentissage visuel auto‑supervisé[29].

Agents autonomes et adaptativité

Pour les agents autonomes, un modèle de monde est une condition nécessaire pour une capacité d'adaptation à de nouvelles situations, car il encode des régularités générales de l'environnement. Un agent muni d'un tel modèle peut ajuster sa stratégie d'actions quand il rencontre des configurations jamais vues dans ses données d'entraînement, en s'appuyant sur la capacité du modèle à généraliser les dynamiques[3],[7].

Dans la recherche sur l'intelligence artificielle générale (AGI), certains auteurs (Y LeCun notamment) estiment que des modèles de monde riches, généralisables à d’autres tâches, à d’autres environnements et à d’autres configurations d’objets ou d’agents (sans devoir être réentraîné depuis zéro), et éventuellement transférables à d'autres agents, sont un élément clé pour des systèmes capables de raisonner dans des contextes variés. Ces modèles sont alors vus comme des environnements internes où l'agent peut réfléchir, simuler et planifier avant de s'engager dans de nouvelles tâches[19],[4]. Ces modèles sont une condition nécessaire et non suffisante pouvant permettre aux IA et robots de se doter d'un sens commun latent, c'est-à-dire d'une forme de compréhension intuitive du monde leur permettant de prédire l’évolution d’une situation, d’anticiper les conséquences d’une action et de détecter les scénarios incohérents en simulant mentalement des scénarios, comme un enfant le ferait[30],[31].

Approches modernes

Modèles de monde neuronaux et apprentissage profond

Les approches modernes en apprentissage profond implémentent les modèles de monde à l'aide de réseaux neuronaux capables de traiter des données de « haute dimension » (c'est-à-dire comportant un très grand nombre de variables), comme des images, des vidéos ou des signaux complexes. Les architectures typiques combinent des réseaux convolutifs (pour extraire des caractéristiques spatiales), des réseaux récurrents ou des architectures de type transformeur (pour extraire la dynamique temporelle) et des espaces latents compacts où un « état du monde » est représenté[2].

L'article « World Models » de Ha et Schmidhuber décrit une architecture en trois modules : un encodeur visuel (V) basé sur un « auto-encodeur variationnel », un modèle récurrent (M) qui prédit l'évolution de l'état latent, et un contrôleur (C) qui choisit les actions à partir de ces états internes. L'agent peut être entraîné à résoudre des tâches d'apprentissage par renforcement, parfois en grande partie dans le monde « rêvé » généré par le modèle, ce qui réduit les interactions nécessaires avec l'environnement réel[2],[3].

Dreamer, à titre d'exemple, a décliné cette architecture avec trois réseaux neuronaux entraînés conjointement : 1) un modèle de monde chargé de prédire les conséquences possibles des actions, 2) un module appelé Critic qui évalue la valeur de ces conséquences, et 3) un module Actor qui sélectionne les actions menant aux issues les plus favorables. L’ensemble apprend à partir de séquences rejouées tout en interagissant avec l’environnement. Il doit rester robuste face à des signaux de nature et d’amplitude très différentes pour fonctionner sans ajustement d’hyperparamètres par l'humain, et dans des domaines variés. La V3 de Dreamer a introduit des fonctions de perte — c’est‑à‑dire des formules mathématiques qui mesurent l’écart entre les prédictions du modèle et les résultats attendus — et des outils de normalisation conçus pour stabiliser l’apprentissage et permettre des prédictions fiables, même quand les quantités à estimer varient de plusieurs ordres de grandeur.
Des variantes ultérieures, comme les modèles Dreamer ou DayDreamer (qui est une version optimisée pour les environnements 3D réalistes), apprennent également un « modèle latent de l'environnement », qui leur permet d'améliorer leurs capacités de prédiction et d'imaginer des scénarios futurs, avec en outre des techniques d'optimisation pour mieux planifier dans l'espace latent.
Ces méthodes, ensuite appliquées à la robotique physique, ont montré qu'un robot peut apprendre des comportements complexes à partir d'un nombre limité d'essais réels ; Soumis à des tâches (tests) de contrôle continu, bien qu'étant un algorithme général, ce type de modèle a égalé voire surpassé les méthodes spécialisées (sur plus de 150 tâches diverses dans le cas de la version 3 de Dreamer), avec pourtant une seule configuration. Des techniques de robustesse basées sur la normalisation, l’équilibrage et les transformations permettent que le modèle reste fiable et stable quand il est entraîné sur un type de données puis appliqué à un autre domaine (scalabilité). Appliqué dès l’installation, Dreamer a été le premier algorithme à spontanément collecter des diamants en jouant dans Minecraft (à partir de zéro, sans données humaines ni programmes, ce qui était considéré comme un défi majeur pour l'IA, car cela nécessite d’explorer des stratégies « visionnaires » à partir de pixels et de maigres récompenses, dans un monde ouvert)[32],[33],[34].

Grâce à un bon modèle de monde, l'IA peut exercer des contrôles complexes sans avoir bénéficié d'une formation approfondie, ce qui rend l'apprentissage par renforcement largement applicable[35],[5],[27].

Approches JEPA et modèles prédictifs en représentation

Les Joint Embedding Predictive Architectures (JEPA), proposées notamment par Yann LeCun, contrairement aux modèles génératifs, constituent une approche où le « modèle de monde » opère dans l'espace interne de ses représentations du monde (plutôt qu'au niveau des observations brutes, par exemple des pixels dans le cas d'images). Dans ces modèles, un bloc de contexte produit une représentation abstraite à partir d'une partie de l'entrée, et le réseau apprend à prédire les représentations d'autres parties de la même scène ou de futurs états, sans chercher à reconstruire les détails imprévisibles ; l'architecture JEPA se concentre sur les informations essentielles de haut niveau, en ignorant volontairement des détails a priori non pertinents ou imprévisibles, un design que LeCun considère crucial pour un apprentissage efficace et de type humain[4],[18],[19].

Le modèle I-JEPA (Image-based JEPA), présenté par Meta AI, illustre cette approche en vision artificielle : il apprend un modèle interne du monde visuel en comparant des représentations d'images au lieu de prédire chaque pixel. Cette approche semble plus efficace que des modèles génératifs classiques pour certains usages, car elle se concentre sur les aspects structurants de la scène qui sont utiles pour la compréhension et la prédiction, tout en ignorant le bruit de haute entropie[4],[18].

En 2022, dans un texte de position intitulé « A Path Towards Autonomous Machine Intelligence (Un chemin vers l'intelligence artificielle autonome) », Y. LeCun promeut une architecture en plusieurs modules (perception, modèle de monde, mémoire, coût, action, configurateur) où le « modèle de monde » joue un rôle central. Il permet la prédiction, dans une simulation de la dynamique du monde réel, reconstruite à partir de données sensorielles suffisamment riches. L'objectif de LeCun est ici de doter l'IA d'une forme de compréhension du monde qui ne repose pas que sur du texte, mais aussi sur des interactions avec des données multimodales acquises dans le monde et éventuellement en partie reconstruites[19].

Modèles de monde en robotique moderne

Pour la robotique contemporaine, et en particulier pour la robotique cognitive, les modèles de monde s'appuient de plus en plus sur des techniques issues des modèles génératifs de type vidéos et des grands modèles de données. Des travaux de recherche ont montré que des modèles vidéo prédictifs, comme PlaNet ou des approches de « deep visual foresight », peuvent servir de base pour planifier des actions d'un robot en simulant les conséquences de celles-ci dans l'espace d'images.
Des analyses récentes insistent sur le rôle des modèles de monde pour permettre à des « petits » acteurs de la robotique d'innover, en utilisant des architectures comme Dreamer pour obtenir une autonomie de plus long terme et gérer des tâches où les récompenses sont rares. Ces modèles intègrent souvent de grandes quantités de données issues de capteurs et de simulations, et cherchent à capturer les régularités sous-jacentes nécessaires pour un comportement robuste dans des environnements physiques complexes[27],[3],[5].

Comment le modèle de monde apprend et prédit l’environnement

L'IA récupère via des capteurs ou une base de données l'équivalent de perceptions brutes correspondant à des observations (Par exemple : une image, une position, un son, un état du jeu).

Son « world model » doit apprendre à transformer ces perceptions en représentations intérieure, compactées et proprement stockées. Il doit aussi apprendre à les utiliser pour déduire/prédire ce qui pourrait se produire pour différentes actions, ce qui permettra à l'Agent intelligent de planifier dans son monde intérieur (sans agir réellement).

On parle de modèle d’état récurrent pour désigner un modèle de réseau qui garde en mémoire ce qui s’est passé auparavant (pour mieux anticiper la suite). Chaque observation pertinente (par exemple issue d'une caméra ou d'un autre type de capteur) est convertie en un petit vecteur (une courte description numérique que l'on appelle ici « variable latente », qui doit ne résumer que l’information essentielle, en oubliant tous les détails a priori inutiles de l’image ou des capteurs). Ce petit vecteur est au départ aléatoire (il ne veut alors rien dire), puis le modèle d'IA l'utilise pour essayer de prédire quelque chose (par exemple : l’image suivante, la récompense, ce qui va se passer si l’agent fait telle action...), puis le modèle compare sa prédiction à la réalité et si sa prédiction était fausse, il calcule son erreur. Puis il ajuste légèrement les nombres du vecteur et de ses réseaux internes pour que la prochaine fois, la prédiction puisse être un peu meilleure. En répétant cela des milliers de fois, le modèle finit par apprendre quels vecteurs résument le mieux le monde, c’est‑à‑dire : ce qui est important, ce qui change, ce qui permet de prévoir la suite. À partir de ces états internes, le modèle prédit les futures observations, les récompenses possibles et la poursuite ou non d'un processus entamé ; ce « world model » doit aussi apprendre à éviter de prédire et proposer des solutions triviales (trop simples ou trop pauvres pour être utiles). Au cours de cet entraînement, l’agent apprend à « imaginer » de longues séquences futures, à évaluer leurs conséquences et à agir plus efficacement dans des environnements complexes.

Chercheurs et travaux majeurs

Plusieurs chercheurs et travaux sont fréquemment cités dans le domaine des modèles de monde en IA :

  • Jürgen Schmidhuber : il a exploré dès les années 1990, des combinaisons de réseaux de neurones récurrents et de contrôleurs, avec l'idée d'apprendre des modèles de l'environnement sur le long terme. Ses travaux ultérieurs ont contribué au cadre théorique dans lequel s'inscrivent les modèles de monde neuronaux modernes[3] ;
  • David Ha et Jürgen Schmidhuber : ils ont popularisé le terme « World Models » dans leur article de 2018, qui montre comment un agent peut apprendre un modèle génératif de son environnement et l'utiliser pour planifier des politiques[2],[3] ;
  • Yann LeCun : il défend l'idée que des modèles de monde auto‑supervisés et prédictifs sont une condition de l'intelligence artificielle plus générale. Selon lui, des architectures JEPA et des modèles non génératifs opérant en espace de représentation sont nécessaires ; il crée en 2026 une startup pour les développer[19],[18],[36] ;
  • Des équipes industrielles et académiques, notamment chez DeepMind et d'autres laboratoires d'IA, ont exploré des modèles de monde pour la planification dans les domaines de la vision et de la robotique, par exemple avec des modèles vidéo prédictifs et des architectures de type PlaNet et Dreamer[27],[5].

Ces chercheurs pour parfaire les modèles de monde, font aussi appels à d'autres disciplines, comme les sciences naturelles (par exemple, physique, chimie, biologie) et les sciences psychosociales (par exemple, pédagogie, sociologie)[37],[12].

Applications

Robotique et agents autonomes

En robotique, les modèles de monde permettent à des robots de simuler mentalement des trajectoires, par exemple pour anticiper des collisions ou des difficultés topologiques, ou pour planifier des manipulations d'objets avant de les exécuter. Des applications souvent citées son la navigation dans des environnements encombrés, la manipulation d'objets sur des chaînes d'assemblage ou l'interaction avec des humains dans des environnements partagés. Des travaux récents décrivent des robots capables de réajuster en temps réel leur trajectoire grâce à un modèle de monde appris qui intègre des données d'images haute résolution et de capteurs[3],[27].

Les modèles de monde commencent aussi à être utilisés dans la « robotique de données » (notion regroupant les méthodes automatisées de collecte, organisation et nettoyage de la data, pour faciliter leur utilisation par les IA et divers systèmes d'information et d'analyse). Là, des modèles vidéo génératifs servent à générer des données d'entraînement supplémentaires (donnée synthétique) pour améliorer le système tout en réduisant ainsi le besoin d'expériences réelles coûteuses, par exemple pour concevoir des systèmes de transport autonome, des robots de service ou des robots collaboratifs en milieux complexes (urbain, industriel, médical...)[3],[7],[27].

Modèles génératifs et simulation

Dans le domaine des modèles génératifs, les modèles de monde permettent de simuler des environnements cohérents et de longue durée, au‑delà de la génération d'images isolées. Les modèles vidéo prédictifs et les architectures de type world model servent de base pour générer des séquences d'images plausibles qui respectent les lois physiques implicites apprises à partir des données[2],[27].

Ha et Schmidhuber ont montré qu'un agent peut être entièrement entrainé dans un environnement simulé par son propre modèle de monde, puis transféré dans un environnement réel, ce qui ouvre la voie à des approches de « simulation intérieure », qui inspirent aussi des scénarios où des modèles de monde « rêvent » des expériences supplémentaires pour améliorer les performances d'agents d'apprentissage par renforcement[2].

IA embarquée

Les modèles de monde sont aussi nécessaire aux IA embarquées, en particulier dans les véhicules autonomes, des drones, des robots domestiques ou des appareils mobiles. Ils doivent alors être suffisamment compacts et efficaces pour fonctionner avec des ressources de calcul et d'énergie limitées, tout en fournissant des prédictions fiables pour la planification et le contrôle[3].

Des architectures comme Dreamer ont été testées dans des robots physiques, où le modèle de monde est exécuté sur l'ordinateur embarqué du robot pour planifier des séquences de mouvements sans nécessiter un calcul intensif dans le Cloud. Le JEPA (qui se concentrent sur les représentations plutôt que sur la génération pixel à pixel) améliore aussi l'efficacité d'applications embarquées de vision et de navigation[4],[18].

Débats et limites

Coût computationnel et complexité

L'un des principaux défis des modèles de monde modernes est leur coût computationnel, en particulier lorsque l'on cherche à modéliser des environnements visuels ou physiques riches à haute résolution et sur de longues séquences temporelles. Les modèles génératifs complets de vidéos, par exemple, nécessitent des ressources importantes pour être entraînés et utilisés en planification, ce qui peut limiter leur utilisation dans des systèmes embarqués ou en temps réel[3].

Au milieu des années 2020, les approches de type JEPA, cherchent à réduire ce coût en se concentrant sur des représentations latentes compressées et en ignorant le bruit imprévisible, mais restent néanmoins gourmandes en données et en calcul pour atteindre de bonnes performances. Trouver un compromis entre la richesse du modèle de monde et son coût opérationnel demeure un sujet de recherche actif[4],[3].

Difficulté d'apprentissage et généralisation

Apprendre un modèle de monde précis et robuste est difficile, surtout lorsque les données d'entraînement couvrent seulement une fraction des situations possibles que l'agent rencontrera. En outre, modéliser exactement tous les détails d'un environnement est inutile (et impossible) : de nombreux travaux insistent sur la nécessité de modèles « abstraits » qui capturent seulement les aspects pertinents pour la tâche. Les modèles peuvent sur‑apprendre des régularités spécifiques à l'environnement d'entraînement, et échouer à généraliser à de nouveaux contextes, ce qui limite alors leur utilité pour la planification dans des situations inédites. Concevoir des objectifs d'apprentissage qui conduisent à de telles abstractions utiles, sans supervision explicite, reste un problème ouvert[19],[4],[2],[3].

Limites, risques de biais, problèmes de sécurité et d'interprétabilité

Un modèle de monde pour être utile, doit trouver un équilibre délicat entre préservation et compression de l'information, et être calibré à l'aune des besoins et enjeux contextuels du moment (besoins et enjeux qui peuvent varier dans le temps). Un modèle en poupée russe permet le cas échéant qu'il contienne différents niveaux de précisions. La précision (exigeant plus de consommation d'énergie) n'est pas toujours requise. Selon LeCun, les prédictions à court terme nécessitent des représentations plus détaillées, tandis que pour les prédictions à long terme, des représentations plus abstraites suffisent généralement.

Les modèles de monde sont aussi susceptibles d'hériter des biais présents dans les données utilisées pour les entraîner, par exemple des biais liés à la manière dont les environnements simulés ou réels sont collectés[3]. Un modèle de monde biaisé peut conduire un agent à prendre des décisions inadaptées ou injustes, en particulier lorsqu'il est utilisé dans des systèmes autonomes qui interagissent avec des humains[3],[7].

Par ailleurs, les modèles neuronaux du monde sont souvent difficiles à interpréter : il est compliqué de comprendre exactement ce qu'ils ont appris sur la structure de l'environnement, et donc de vérifier la validité de leurs prédictions en situations critiques[2]. Ces questions d'interprétabilité et de sécurité font l'objet de travaux en cours, notamment pour des applications sensibles comme la robotique en milieu humain, les systèmes de transport autonomes ou certains usages militaires[2],[27].

Références

Voir aussi

Related Articles

Wikiwand AI