Modèle de fondation

paradigme de modèle d'intelligence artificielle From Wikipedia, the free encyclopedia

Un modèle de fondation ou modèle fondateur est un modèle d'intelligence artificielle (IA) de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé). Le modèle résultant peut être adapté à un large éventail de tâches en aval (downstream tasks en anglais)^[1]^,^[2]. Depuis leur introduction en 2018, les modèles de fondation ont induit une transformation majeure dans la manière de construire les systèmes d'IA. Les premiers modèles de fondation étaient de grands modèles de langage basés sur l'architecture des transformeurs, notamment BERT qui était basé sur la partie « encodeur »^[3] et la famille des GPT initialement basée sur la partie « décodeur ». Par la suite, des modèles de fondation multimodaux, tels DALL-E, Flamingo^[4], et Florence^[5], qui intègrent image et texte, ont fait leur apparition. Plus récemment, les modèles de fondation peuvent utiliser les LNN (liquid neural networks) à la place des transformeurs. Ce terme a été popularisé par le centre de recherche sur les modèles de fondation (CRFM) du Stanford Institute for Human-Centered Artificial Intelligence (HAI)^[1].

Définitions

Le centre de recherche sur les modèles de fondation (CRFM) du Stanford Institute for Human-Centered Artificial Intelligence (HAI) a inventé le terme de modèle de fondation pour désigner « tout modèle entraîné sur un gros volume de données (généralement en utilisant l'apprentissage auto-supervisé à grande échelle sur des données non annotées) qui peut être adapté (par exemple, affiné) à un large éventail de tâches en aval »^[6]. La technique n'est en soi pas nouvelle, étant basée sur des réseaux de neurones profonds et un apprentissage auto-supervisé, mais son échelle d'entraînement, sur un large volume de données, et le potentiel d'utilisation d'un même modèle pour de nombreuses tâches en aval justifie l'introduction d'un nouveau concept, affirme le groupe de Stanford^[6].

De par sa capacité à s'adapter à de nombreuses tâches en aval, un modèle de fondation est un « paradigme pour la construction de systèmes d'IA », dans lequel un modèle pré-entraîné sur une grande quantité de données non étiquetées peut être adapté à de nombreuses applications^[7]^,^[8]^,^[9].

Les principales caractéristiques des modèles de fondation sont l'émergence et l'homogénéisation^[6]. Dans le cas de l'apprentissage auto-supervisé, les données d'entraînement n'étant pas étiquetées, la structuration de la représentation de l'information par le modèle est émergente plutôt que d'être explicitement encodée. Des propriétés qui n'étaient pas prévues peuvent alors apparaître. Par exemple, un modèle entraîné sur un grand ensemble de données linguistiques peut apprendre à générer ses propres histoires ou à faire de l'arithmétique, sans être explicitement entraîné pour le faire^[10]. Par ailleurs, l'homogénéisation signifie que la même méthode est utilisée dans de nombreux domaines, ce qui permet des avancées mutualisées, mais aussi la possibilité de « points uniques de défaillance »^[6].

Entraînement

Les modèles de fondation sont construits en optimisant un ou plusieurs objectifs d'entraînement, qui sont des fonctions mathématiques déterminant la manière dont les paramètres du modèle sont mis à jour en fonction de ses prédictions sur les données d'entraînement^[11].

Pour les LLM, cet entraînement repose en général sur un objectif de prédiction des prochains tokens (qui mesure la capacité du modèle à prévoir le prochain élément dans une séquence)
Pour les modèles d'image, les objectifs d'entraînement couramment utilisés incluent l'apprentissage contrastif. Ce dernier et les objectifs de diffusion (mécanismes où le modèle apprend à reconstituer des données bruitées). L'apprentissage contrastif est une méthode d'entraînement des modèles d'IA qui permet de maximiser la similitude entre des représentations d'objets similaires (par exemple, des images de la même catégorie), tout en renforçant les différences avec celles d'objets non liés (images d'autres catégories). Cette approche repose sur des comparaisons dans l'espace de représentation de l'IA, où chaque objet est transformé en une forme mathématique (vecteur) permettant de mesurer et d'optimiser sa proximité ou son éloignement par rapport à d'autres objets. L'apprentissage contrastif est souvent utilisé dans la reconnaissance d'images et la vision par ordinateur, notamment pour améliorer la classification ou la recherche d'images pertinentes. Dans l'apprentissage contrastif, les images subissent des augmentations aléatoires avant d'être évaluées en fonction de la similarité des représentations du modèle. Pour les modèles de diffusion, les images sont bruitées, et le modèle apprend progressivement à les débruiter par le biais de l'objectif. D'autres objectifs dits « multimodaux » existent (certains séparant les images et le texte pendant l'entraînement ; d'autres les analysent simultanément)^[12]. Les objectifs d'entraînement des modèles de fondation favorisent l'apprentissage de représentations largement utiles des données.
Pour les modèles d'image, les objectifs d'entraînement couramment utilisés incluent l'apprentissage contrastif. Ce dernier (qui vise à maximiser la similarité entre des représentations d'images similaires tout en différenciant les images non liées) et les objectifs de diffusion. Dans l'apprentissage contrastif, les images subissent des augmentations aléatoires avant d'être évaluées en fonction de la similarité des représentations du modèle. Pour les modèles de diffusion, les images sont bruitées, et le modèle apprend progressivement à les débruiter par le biais de l'objectif. D'autres objectifs dits « multimodaux » existent (certains séparant les images et le texte pendant l'entraînement ; d'autres les analysent simultanément). Les objectifs d'entraînement des modèles de fondation favorisent l'apprentissage de représentations largement utiles des données.

Avec la montée en puissance des modèles de fondation, et avec les ensembles massifs (et croissants) de données qui les alimentent, l'objectif d'entraînement vise à traiter des données à l'échelle d'Internet, pour en extraire des informations pertinentes. De plus, ces modèles étant conçus pour résoudre un large éventail de tâches, leurs objectifs d'entraînement doivent être domain-complets (c'est-à-dire capables de couvrir une grande variété de capacités dans un domaine donné). Enfin, ces objectifs doivent être scalables (adaptables à grande échelle) et efficaces sur le plan computationnel. Dans le contexte des contraintes imposées par la taille des modèles et la puissance de calcul disponible, un objectif d'entraînement doit surmonter ces goulots d'étranglement.

Opportunités et risques

La publication du CRFM^[6] a répertorié les capacités des modèles de fondation en ce qui concerne « le langage, la vision, la robotique, le raisonnement et l'interaction humaine » et ses principes techniques, tels que « les architectures de modèles, les algorithmes d'entraînement, la gestion des données, la sécurité, leur évaluation », leurs applications, par exemple dans « le droit, les soins de santé, l'éducation » et enfin leur impact potentiel sur la société, y compris « l'inéquité, l'utilisation abusive, l'impact économique et environnemental, les considérations juridiques et éthiques ».

Un article sur les modèles de fondation dans The Economist note que « pour certaines personnes, le développement sans précaution de la technologie risque de concentrer davantage le pouvoir économique et politique »^[10]^,^[13].

En décembre 2025, aux États-Unis, 5 mois après que la seconde présidence de Donald Trump ait lancé son plan d'accélération de l'innovation en IA pour assurer la domination technologique et sécuritaire du pays dans la compétition mondiale pour l'IAG^[14], un rapport^[15] réalisé par le réalisé par le Committee on Foundation Models for Scientific Discovery and Innovation des Académies nationales des sciences, d'ingénierie et de médecine, commandé par le Département de l'Énergie (DOE), recommande à ce dernier de combiner les avantages des modèles de fondation à ceux des méthodes de calcul traditionnelles pour associer rigueur physique, capacités prédictives et raisonnement interprétatif. Il recommande que le DOE poursuive ses investissements dans le développement de modèles de fondation dans les domaines où l'agence dispose déjà d'atouts stratégiques, tout en maintenant son expertise en modélisation computationnelle et en renforçant ses infrastructures logicielles et matérielles. IL préconise aussi de créer des protocoles standardisés, des benchmarks pour l'entraînement et la reproductibilité des modèles, et des partenariats avec l'industrie et le monde académique afin de soutenir les missions scientifiques nationales^[16].

Modèles « frontière »

Modèles frontière

De premières définitions plus ou moins institutionnelles de la notion de modèle frontière ont été produites par OpenAI, le gouvernement du Royaume-Uni et le « Frontier Model Forum » (qui est une coalition internationale créée en 2023 par Anthropic, Google, Microsoft et OpenAI pour promouvoir la sécurité, la transparence et la gouvernance des modèles d'IA les plus puissants, dits “modèles frontière”). Ces définitions ont été synthétisées dans un rapport Frontier AI Regulation: Managing Emerging Risks to Public Safety par OpenAI, en 2023. Pour ce rapport, les frontier models sont des modèles d'IA généralistes, multimodaux, et très puissants. Ils sont capables d'effectuer un large éventail de tâches complexes, grâce à d'importantes capacités de raisonnement, de cohérence logique et de planification, ce qui les rends « susceptibles de posséder des capacités dangereuses suffisantes pour poser de graves risques pour la sécurité publique »^[17]. Certains modèles de fondation particulièrement avancés sont qualifiés de « modèles frontière » en raison des risques qu'ils pourraient poser en termes de cybersécurité et/ou de sécurité publique^[18].

Leur dangerosité peut résulter d'un mauvais alignement du modèle, ou d'un usage accidentel ou malveillant. À mesure que les modèles de fondation progressent, des chercheurs en intelligence artificielle alertent sur le fait qu'une grande partie des modèles de prochaine génération pourrait relever de cette catégorie. La notion de « dangerosité » est en partie subjective et prospective, car il n'existe pas de critère strict permettant de déterminer quels modèles doivent être considérés comme des modèles frontière ; parmi les capacités généralement citées comme suffisamment préoccupantes figurent notamment :

la conception ou la synthèse de nouvelles armes biologiques ou chimiques^[19] ;
la production et la diffusion de désinformation ciblée et convaincante avec un minimum d'instructions^[20] ;
la possibilité pour l'IA d'échapper au contrôle humain par des comportements trompeurs^[21].

De par ces caractéristiques, les modèles frontière sont difficiles à réguler juridiquement efficacement. Leurs capacités émergentes, par nature imprévisibles, peuvent apparaitre durant leur développement, ou après leur déploiement^[18]. De plus, en tant que modèles apprenants, comme ils continueront à évoluer et peut être à se construire un modèle interne du monde après leur mise en service, il est complexe d'anticiper ou de limiter l'ensemble des risques associés. Quand un modèle frontière est publié en open source ou mis en circulation librement, sa diffusion rapide peut aussi compliquer la mise en place de mécanismes de responsabilité ou de contrôle.

Modèles de fondation causaux

Les modèles de fondation causaux (Causal foundation models) sont une extension des modèles de fondation, ayant émergé au milieu des années 2020. Ils intègrent explicitement des mécanismes de causalité dans les représentations apprises par l'IA, dans son espace latent et dans son modèle interne du monde.

Les modèles actuels d'IA ne savent pas vraiment répondre à des questions du type « que se serait‑il passé si… ? », car ils n'ont pas encore de sens commun et ne comprennent pas les liens de cause à effet derrière les événements. Leur méthode pour répondre à ce genre de question consiste à extraire ces liens causaux dans de grandes quantités de données pour construire un réseau de causes, puis à utiliser ce réseau pour raisonner étape par étape et améliorer la capacité des modèles à traiter des scénarios hypothétiques. Les modèles de fondation classiques peuvent le faire via des corrélations statistiques issues d'un entraînement auto-supervisé à grande échelle, Au contraire, les « modèles de fondation causaux » cherchent à capturer des relations causales structurelles permettant de raisonner sur les effets d'interventions, de simuler des scénarios contrefactuels et de mieux généraliser hors distribution^[22]. L'IA peut apprendre d'abord une représentation causale grossière d'un environnement, puis la raffiner progressivement à mesure que l'agent acquiert des actions plus précises^[23].

Ces démarches s'inscrivent dans la continuité des travaux fondateurs sur l'inférence causale, notamment ceux de Judea Pearl, qui distinguent les niveaux observationnel, interventionnel et contrefactuel dans la modélisation des systèmes complexes^[24]. Des travaux récents proposent d'intégrer ces principes causaux dans des modèles de grande taille afin d'améliorer la robustesse, l'explicabilité et la capacité de planification des systèmes. Yang et al. (2024) soulignent que l'intégration d'un modèle causal explicite dans un modèle de fondation permet de mieux structurer les représentations latentes, d'améliorer la prédiction des effets d'actions dans les modèles du monde et de réduire la sensibilité aux biais corrélationnels présents dans les données massives^[25].

D'autres travaux, notamment dans la robotique cognitive et les agents intelligents autonomes, montrent que les modèles causaux facilitent la planification séquentielle et l'apprentissage par renforcement en permettant de raisonner sur les conséquences futures d'actions hypothétiques^[26]. En 2025, Petri et al. montrent qu'un modèle d'espace d'états (SSM) peut apprendre à la fois les règles qui gouvernent un petit environnement et les relations de cause à effet qui le structurent, parfois mieux qu'un transformeur équivalent, suggérant que ces modèles pourraient servir de base à des modèles du monde plus explicatifs, capables de comprendre « ce qui cause quoi » plutôt que de simplement repérer des corrélations^[27].

En 2025, Zhiyu Zhao et al. montrent que certains agents d'IA, rendus plus curieux peuvent apprendre non seulement les règles de cause à effet d'un environnement, mais aussi comment ces règles changent selon les situations ; ils peuvent alors construit une « méta‑carte causale » qui regroupe plusieurs sous‑mécanismes causaux, permettant à l'agent de mieux s'adapter à des contextes nouveaux et à des dynamiques qui évoluent^[28].

Les modèles de fondation causaux pourraient peut-être améliorer la fiabilité des systèmes d'IA dans des environnements dynamiques ou partiellement observables, en particulier dans les modèles du monde utilisés pour la simulation, la robotique ou la prise de décision autonome. Ils visent à combiner les capacités émergentes des modèles de fondation — telles que l'homogénéisation des architectures et l'apprentissage à grande échelle — avec les garanties structurelles offertes par les modèles causaux, afin de produire des systèmes plus interprétables et plus robustes aux changements de distribution^[29].

Les « modèles de fondation causaux » sont l'une des piste explorées pour dépasser les limites des approches purement corrélationnelles et pour rapprocher les modèles de fondation d'une compréhension plus structurée et explicative du monde^[30].

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Foundation_models » (voir la liste des auteurs).

[1]
(en) « Introducing the Center for Research on Foundation Models (CRFM) », Stanford HAI (consulté le 11 juin 2022).
[2]
(en-US) Goldman, « Foundation models: 2022’s AI paradigm shift », VentureBeat, 13 septembre 2022 (consulté le 24 octobre 2022).
[3]
(en) Anna Rogers, Olga Kovaleva et Anna Rumshisky, « A Primer in BERTology: What we know about how BERT works », arXiv:2002.12327 [cs],‎ 9 novembre 2020 (lire en ligne, consulté le 1^er novembre 2022).
[4]
(en) « Tackling multiple tasks with a single visual language model », sur www.deepmind.com (consulté le 1^er novembre 2022).
[5]
(en) Lu Yuan, Dongdong Chen, Yi-Ling Chen et Noel Codella, « Florence: A New Foundation Model for Computer Vision », arXiv:2111.11432 [cs],‎ 22 novembre 2021 (lire en ligne, consulté le 1^er novembre 2022).
[6]
(en) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli et Russ Altman, « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258 [cs],‎ 12 juillet 2022 (lire en ligne , consulté le 1^er novembre 2022).
[7]
« Stanford CRFM » (consulté le 10 juin 2022).
[8]
(en) « What are foundation models? », IBM Research Blog, 9 février 2021 (consulté le 10 juin 2022).
[9]
(en) Fei, Lu, Gao et Yang, « Towards artificial general intelligence via a multimodal foundation model », Nature Communications, vol. 13, n^o 1,‎ décembre 2022, p. 3094 (ISSN 2041-1723, PMID 35655064, PMCID 9163040, DOI 10.1038/s41467-022-30761-2, lire en ligne).
[10]
(en) « Huge “foundation models” are turbo-charging AI progress », The Economist,‎ 11 juin 2022 (ISSN 0013-0613, lire en ligne, consulté le 29 juin 2023).
[11]
Shannon, C. E. (1948). A mathematical theory of communication. The Bell system technical journal, 27(3), 379-423 |url=https://people.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf
[12]
Radford, Alec; Kim, Jong Wook; Hallacy, Chris; Ramesh, Aditya; Goh, Gabriel; Agarwal, Sandhini; Sastry, Girish; Askell, Amanda; Mishkin, Pamela (26 February 2021), Learning Transferable Visual Models From Natural Language Supervision |url=https://arxiv.org/abs/2103.00020.
[13]
Texte original : Some worry that the technology's heedless spread will further concentrate economic and political power […].
[14]
Maison Blanche, Winning the Race America's AI Action plan, juillet 2025, PDF, 28 pages.
[15]
Committee on Foundation Models for Scientific Discovery and Innovation, Board on Mathematical Sciences and Analytics, Division on Engineering and Physical Sciences et National Academies of Sciences, Engineering, and Medicine, Foundation Models for Scientific Discovery and Innovation: Opportunities Across the Department of Energy and the Scientific Enterprise, National Academies Press (ISBN 978-0-309-99500-9, DOI 10.17226/29212, lire en ligne).
[16]
(en) « DOE Should Develop AI-Based Foundation Models Fused with Traditional Computational Methods to Bring Paradigm Shift to Scientific Discovery », sur nationalacademies.org, 31 décembre 2025 (consulté le 31 décembre 2025).
[17]
« Frontier models - AI Wiki - Artificial Intelligence Wiki », sur aiwiki.ai (consulté le 24 mars 2026).
[18]
Markus Anderljung, Joslyn Barnhart, Anton Korinek et Jade Leung, Frontier AI Regulation: Managing Emerging Risks to Public Safety, 7 novembre 2023 (DOI 10.48550/arXiv.2307.03718).
[19]
Karan Singhal, Shekoofeh Azizi, Tao Tu et S. Sara Mahdavi, « Large language models encode clinical knowledge », Nature, vol. 620, n^o 7972,‎ août 2023, p. 172–180 (ISSN 1476-4687, PMID 37438534, PMCID 10396962).
[20]
Harsha Nori, Nicholas King, Scott Mayer McKinney et Dean Carignan, Capabilities of GPT-4 on Medical Challenge Problems, 12 avril 2023 (DOI 10.48550/arXiv.2303.13375, lire en ligne).
[21]
Harsha Nori, Nicholas King, Scott Mayer McKinney et Dean Carignan, Capabilities of GPT-4 on Medical Challenge Problems, 12 avril 2023 (DOI 10.48550/arXiv.2303.13375).
[22]
(en) Gaël Gendron, Jože M. Rožanec, Michael Witbrock et Gillian Dobbie, Causal Cartographer: From Mapping to Reasoning Over Counterfactual Worlds, 20 mai 2025 (DOI 10.48550/arXiv.2505.14396).
[23]
(en) Francesco Petri, Luigi Asprino et Aldo Gangemi, Learning Local Causal World Models with State Space Models and Attention, 4 mai 2025 (DOI 10.48550/arXiv.2505.02074, lire en ligne).
[24]
(en) Judea Pearl et Dana Mackenzie, The Book of Why: The New Science of Cause and Effect, Basic Books, 2018.
[25]
(en) Mengyue Yang, « Toward Causal Foundation World Models: From Representation to Decision-Making », ojs.aaai.org, vol. 40, n^o 47,‎ 14 mars 2026, p. 39841–39841 (ISSN 2374-3468, DOI 10.1609/aaai.v40i47.41360).
[26]
(en) Schölkopf, B. et al., “Toward Causal Representation Learning”, Proceedings of the IEEE, vol. 109, n^o 5, 2021.
[27]
(en) Francesco Petri, Luigi Asprino et Aldo Gangemi, Learning Local Causal World Models with State Space Models and Attention, 4 mai 2025 (DOI 10.48550/arXiv.2505.02074).
[28]
(en) Zhiyu Zhao, Haoxuan Li, Haifeng Zhang et Jun Wang, Curious Causality-Seeking Agents Learn Meta Causal World, 26 octobre 2025.
[29]
(en) Bommasani, R. et al., « On the Opportunities and Risks of Foundation Models », arXiv:2108.07258, 2021.
[30]
(en) John Gkountouras, Matthias Lindemann, Phillip Lippe et Efstratios Gavves, Language Agents Meet Causality -- Bridging LLMs and Causal World Models, 25 octobre 2024 (DOI 10.48550/arXiv.2410.19923).

Modèles frontière

Related Articles