GPT-2

Développé par Open AI

Première version 14 février 2019

Dépôt github.com/openai/gpt-2

Type Grand modèle de langage
Transformateur génératif pré-formé

GPT-2

Informations
Développé par	Open AI
Première version	14 février 2019
Dépôt	github.com/openai/gpt-2
Type	Grand modèle de langage Transformateur génératif pré-formé
Licence	MIT^[1]
Site web	openai.com/blog/better-language-models

Chronologie des versions

GPT-2 ( Generative Pre-trained Transformer 2, en français Transformeur génératif préentraîné 2 ) est un grand modèle de langage développé par OpenAI. Deuxième modèle de sa série pionnière de modèles GPT, GPT-2 a été pré-entraîné sur un ensemble de données issues de 8 millions de pages web^[2].

Il est considéré comme le véritable tournant ayant révélé la puissance des transformeurs génératifs préentrainés pour générer du texte inédit et cohérant. OpenAI publiait avant GPT-2 ses modèles en Open source. Pour la première fois, la puissance du modèle, notamment son potentiel de nuisance, convainc ses développeurs de ne le publier que partiellement en février 2019. La version complète du modèle à 1,5 milliard de paramètres a finalement été publiée le 5 novembre^[3]^,^[4]^,^[5]. Geoffrey Hinton révélait dans une interview que "ChatGPT en soi ne l'avait pas vraiment stupéfait, GPT-2, un des premiers modèles de langage, l'avait beaucoup plus impressionné"^[6].

GPT-2 est une version augmentée de GPT-1^[7], avec un nombre de paramètres et un jeu de données d'entraînement environ dix fois plus important^[5]. Le modèle de langage GPT-2 est capable de réaliser des tâches relativement diverses grâce à son aptitude exceptionnelle, par rapport à l'état de la science de l'époque, à réaliser de la complétion de texte^[2]. Cette capacité à prédire le prochain mot dans une séquence de mots lui permet de traduire des textes, de répondre à des questions sur un sujet donné, de résumer des passages d'un texte plus long et de générer un texte d'une qualité parfois indiscernable de celle d'un humain . Cependant, il arrivait qu'il se répète ou devienne incohérent lors de la génération de longs passages^[8]. Il a été remplacé par les modèles GPT-3, GPT-4 et GPT-5, qui ne sont plus libres de droits.

GPT-2, à l'instar de son prédécesseur GPT-1 et de ses successeurs GPT-3, GPT-4 et GPT-5, utilise une architecture de type Transformeur génératif préentraînée . Il est entrainé par apprentissage profond avec un réseau de neurones artificiels, plus précisément un modèle de type transformeur^[7], qui mobilise l'attention plutôt que les solutions plus anciennes basées sur la récurrence et la convolution^[9]^,^[10]. Ces mécanismes d'attention permettent au modèle de se concentrer sélectivement sur les segments du texte d'entrée qu'il prédit comme étant les plus pertinents. Ce modèle permet une parallélisation considérablement accrue et surpasse les précédents benchmarks pour les modèles basés sur les RNN/CNN/LSTM^[7] .

L'architecture transformeur ayant permis une parallélisation massive, les modèles GPT ont pu être entraînés sur des corpus plus vastes que les précédents modèles d'entrainement automatique du langage naturel. Si le modèle GPT-1 a démontré la viabilité de l'approche, GPT-2 a permis d'explorer plus profondément les propriétés émergentes des réseaux entraînés sur des corpus extrêmement volumineux.

Le corpusCommonCrawl, issu du web crawling a été envisagé pour l'entrainement de GPT-2 en raison de sa taille importante, mais il a finalement été rejeté puisqu'une grande partie de son contenu était considéré comme inintelligible^[2]. OpenAI a alors développé un nouveau corpus, WebText. Ce corpus d'entrainement n'était pas composé de contenu récolté de manière indiscriminée sur le Web, mais a été réalisé en collectant uniquement des publications du réseau social Reddit ayant reçu au moins 3 points de karma avant décembre 2017. Ce corpus a ensuite été légèrement nettoyé et converti en texte brut^[2].

Il est connu que le coût d'entraînement de GPT-2 était de 256 dollar américain par heure^[11]^,^[12], néanmoins le nombre d'heures nécessaires à l'entraînement étant inconnu, le coût total de l'apprentissage du modèle ne peut pas être estimé avec précision^[13].

Publication

GPT-2 a été annoncé pour la première fois le 14 février 2019 dans un article de The Verge. James Vincent y indiquait que, bien que « le texte qu'il produit est en principe facilement identifiable comme n'étant pas d'origine humaine », il était néanmoins « l'un des exemples les plus intéressants à ce jour » de programmes de génération de langage^[14].

Le Guardian qualifiait les productions de GPT-2 comme étant « de la prose plausible pour un journal »^[8] ; Kelsey Piper de Vox déclarait que ce modèle était "l’un des systèmes d’IA les plus fascinants jamais vus, qui pourrait bien être celui qui me fera perdre mon emploi. »^[15] Sa flexibilité et ses capacités à réaliser des tâches diverses a particulièrement impressionné la presse^[14].

Une étude de l' Université d'Amsterdam considérait que GPT-2 passait le test de Turing, au moins dans certains scénarios. C'est-à-dire que dans une interaction avec GPT-2, les participants étaient incapables de distinguer ses poèmes de ceux écrits par des humains^[6].

Restrictions et publication partielle

Bien que « Skub » ne soit pas un produit réel, même le modèle réduit utilisé dans DistilGPT2 est capable de créer des arguments plausibles pour et contre son existence.

Alors que les précédents modèles d'OpenAI avaient été immédiatement mis à la disposition du public, OpenAI a initialement refusé de publier le code source de GPT-2 lors de son annonce en février 2019, invoquant le risque d'utilisation malveillante^[8]. Un accès limité au modèle (c'est-à-dire à une interface permettant la saisie et la production de texte, et non le code source lui-même) a été accordé à certains médias sélectionnés lors de l'annonce^[8]. L'une des justifications avancées était que, puisque le texte généré était généralement totalement inédit, il pouvait être utilisé par des spammeurs pour contourner les filtres automatisés sur internet. En effet, OpenAI avait démontré qu'une version de GPT-2 optimisée pour cette tâche pouvait « générer une infinité d'avis positifs – ou négatifs – sur des produits »^[8].

Une autre justification avancée par OpenAI était que GPT-2 pouvait permettre de générer des textes obscènes ou racistes.

Des chercheurs comme Jeremy Howard mettaient également en garde contre « cette technologie qui pourrait saturer Twitter, les messageries électroniques et le web en général de textes en apparence raisonnables et adapté au contexte, au point de noyer toute autre parole et d'être impossible à discerner de texte écrit par des humains »^[14] .

Néanmoins, les avis étaient généralement partagés. L'article paru dans The Verge affirmait que la menace posée par GPT-2 avait été exagérée^[16]. Anima Anandkumar, professeure à Caltech et directrice de la recherche en apprentissage automatique chez Nvidia déclarait également qu'il était infondé d'affirmer que GPT-2 avait les capacités de représenter les menaces décrites par OpenAI et que la restriction de publication du modèle était une « manœuvre malveillante » indigne des bonnes pratiques d'Open Source^[16].

Publication de la version 774M

Bien qu'OpenAI n'avait toujours pas publié son modèle GPT-2 ni les corpus sur lesquels il avait été entraîné, la description des méthodes d'entrainement existant dans des publications antérieures (et la disponibilité gratuite de la technologie sous-jacente) a permis à d'autres de répliquer GPT-2 en tant que logiciel libre. Ainsi, OpenGPT-2 a été publié en août 2019, conjointement avec une version libre de WebText appelée OpenWebText. Le coût de l'entrainement d'OpenGPT-2 a été estimé à environ 50 000 $^[17].

En réaction à OpenGPT-2, le 20 août 2019, OpenAI a publié une version partielle de GPT-2, avec 774 millions de paramètres (environ la moitié de ceux du modèle complet)^[18].

Publication de la version complète 1.5B

En novembre 2019, puisqu'OpenAI n'avait « constaté aucune preuve tangible d'utilisation abusive » de sa version partielle de GPT-2, elle rendit publique la version complète, avec 1,5 milliard de paramètres entraînés sur quarante gigaoctets de données, « environ huit mille fois plus volumineux que l'œuvre complète de Shakespeare »^[19]^,^[3]^,^[4].

Limites

Bien que la capacité de GPT-2 à générer des passages plausibles en langage naturel ait été largement saluée, notamment chez les spécialistes, ses lacunes restaient évidentes, en particulier pour les textes de plus de deux paragraphes.

En plus de ces répétitions, divagations et hallucinations fréquentes, il a rapidement été constaté que le déploiement de GPT-2 était très gourmand en ressources. La version complète du modèle consommait une quantité importante de RAM et une seule prédiction pouvait saturer le processeur à 100 % pendant plusieurs minutes.

Enfin, GPT-2 est vulnérable à des attaques permettant d'extraire les données d'apprentissage^[20].

Application et recherches ultérieures

GPT-2 a été utilisé pour diverses applications et services, mais aussi pour le divertissement. En juin 2019, un subreddit nommé r/SubSimulatorGPT2 a par exemple été créé. Divers instances de GPT-2 y publiaient des messages et se répondaient entre elles^[21]. En juillet de la même année, un logiciel basé sur GPT-2, capable de compléter automatiquement des lignes de code dans divers langages de programmation réalisait des performances jugées comme "révolutionnaires"^[22].

En 2019, AI Dungeon est lancé. Ce site utilisait GPT-2 pour générer des aventures textuelles dynamiques à partir des interactions des utilisateurs avec le modèle^[23].

En février 2021, un centre de crise pour adolescents en difficulté a annoncé qu'il commencerait à utiliser un Chatbot dérivé de GPT-2 pour former ses conseillers en leur permettant d'avoir des conversations avec des adolescents simulés (cette utilisation était purement interne et n'impliquait pas que GPT-2 communique avec des adolescents)^[24].

Le 9 mai 2023, OpenAI a publié une version cartographiée du système de neurone de GPT-2, réalisée grâce à un des modèles successeur, GPT-4^[6].

Performances et évaluation

GPT-2 rédige un article de presse fictif sur la réaction d' Edward Snowden après sa victoire à l' élection présidentielle américaine de 2020 (le texte en surbrillance est généré automatiquement). Bien que Snowden n'ait jamais été élu à une fonction publique (au moment de la génération), l'exemple produit est grammaticalement et stylistiquement correct.

Grâce à l'étendue de son ensemble de données et à sa technique, GPT-2 était capable d'effectuer diverses tâches au-delà de la simple production de texte : répondre à des questions, résumer et même traduire entre langues dans divers domaines spécifiques, sans recevoir d'instructions autres que celle de prédire le mot suivant dans une séquence^[14]^,^[15].

Ainsi, GPT-2 avait la capacité d'effectuer une traduction automatique d'assez bonne qualité entre le français et l'anglais^[2].

Malgré un corpus d'entrainement loin d'être optimisé pour cette tâche (il bénéficiait d'un corpus de texte français environ 500 fois plus petit que celui des autres modèles), GPT-2 surpassait plusieurs modèles de traduction automatique non supervisée sur le corpus de test français-anglais. Ce résultat restait néanmoins inférieur à celui de la meilleure approche non supervisée contemporaine (2019)^[2].


	architecture	nombre de paramètres	données d'entraînement
GPT-1	Décodeur Transformer à 12 niveaux et 12 têtes (sans encodeur), suivi d'un softmax linéaire.	0,12 milliard	BookCorpus^[6] : 4,5 Go de texte, provenant de 7000 livres non publiés de genres variés.
GPT-2	GPT-1, mais avec une normalisation modifiée	1,5 milliard	WebText : 40 Go^[19] de texte, 8 millions de documents, provenant de 45 millions de pages Web ayant reçu des votes positifs sur Reddit.
GPT-3	GPT-2, mais modifié pour permettre une plus grande mise à l'échelle.	175 milliards	570 Go de texte brut, 300 milliards de jetons de CommonCrawl, WebText, Wikipédia en anglais et deux corpus de livres (Books1 et Books2).

GPT-2 a été suivi de GPT-3, un modèle à 175 milliards de paramètres et révélé au public en 2020^[25] (dont le code source n'a jamais été rendu public). L'accès à GPT-3 se fait exclusivement via les API proposées par OpenAI et Microsoft^[26]. Les modèles suivants GPT-4 et GPT-5 ne sont pas non plus Open Source.

v · m OpenAI
Produits	ChatGPT ChatGPT Atlas DALL-E GitHub Copilot ChatGPT Search Sora Whisper
Modèles de fondation	GPT-2 GPT-3 GPT-4 GPT-4o o1 o3 GPT-4.5 GPT-5
Personnes liées	Sam Altman Artificial Ilya Sutskever Elon Musk Mira Murati Reid Hoffman

v · m Intelligence artificielle générative
Modèles	Texte-image Texte-vidéo
Texte	Character.ai Claude DeepSeek Gemini ChatGPT 2 3 4 4o 4.5 5 Grok Le Chat Microsoft Copilot SearchGPT LLaMA
Images	Adobe Firefly DALL-E Flux Midjourney Stable Diffusion
Vidéos	Adobe Firefly Sora Veo HeyGen
Musiques	Suno AI Udio
Prompt	Prompt art Ingénierie de prompt
Entreprises	Aleph Alpha Anthropic DeepSeek Google DeepMind H Company Hugging Face Meta AI Mistral AI OpenAI Perplexity AI xAI
Critiques	Hallucination Droits d'auteur Perroquet stochastique Slop

v · m Intelligence artificielle (IA)
Concepts	Effet IA Grand modèle de langage Hallucination (IA) IA générale IA générative
Techniques	Analyse prédictive Apprentissage automatique Apprentissage non supervisé Apprentissage profond Apprentissage supervisé Machine d'apprentissage logique Modèle de fondation Modèle des croyances transférables IA symbolique Réseau bayésien Réseau de neurones artificiels Réseau de neurones récurrents Réseau neuronal convolutif Transformeur Transformeur génératif préentraîné
Applications	Art créé par IA Apple Intelligence ChatGPT Conséquences économiques de l'intelligence artificielle DeepL Diagnostic (IA) Écriture assistée par IA IA dans la santé IA dans le jeu vidéo Perception artificielle Planification (IA) Robotique Traduction automatique Traitement automatique des langues Véhicule autonome Vision par ordinateur
Enjeux et philosophie	Alignement des intelligences artificielles Chambre chinoise Conscience artificielle Contrôle des capacités de l'IA Détection de contenu généré par intelligence artificielle Éthique de l'IA IA digne de confiance Philosophie de l'IA Sûreté de l'IA
Histoire et événements	Histoire de l'intelligence artificielle Logic Theorist (1955) Perceptron (1957) General Problem Solver (1959) Prolog (1972) Matchs Deep Blue contre Kasparov (1996-1997) Match AlphaGo - Lee Sedol (2016) Sommet pour l'action sur l'intelligence artificielle (2025)
Concepts prospectifs	Anticipation (IA) IA-complet IA générale Risque de catastrophe planétaire lié à l'intelligence artificielle générale Superintelligence
Règlementation	Réglementation de l'IA Règlement de l'UE
Organisations	Agence francophone pour l'IA Anthropic Google DeepMind OpenAI Partenariat sur l'IA
Ouvrages	Déclaration de Montréal pour un développement responsable de l'intelligence artificielle Lettre ouverte sur l'IA Power and Progress Intelligence artificielle : une approche moderne I.A. La Plus Grande Mutation de l'Histoire

Publication

Restrictions et publication partielle

Publication de la version 774M

Publication de la version complète 1.5B

Limites

Application et recherches ultérieures

Performances et évaluation

Références

Voir aussi

Articles connexes

Liens externes

Related Articles