GPT-2
modèle de langage développé par OpenAI et sorti en 2019
From Wikipedia, the free encyclopedia
GPT-2 ( Generative Pre-trained Transformer 2, en français Transformeur génératif préentraîné 2 ) est un grand modèle de langage développé par OpenAI. Deuxième modèle de sa série pionnière de modèles GPT, GPT-2 a été pré-entraîné sur un ensemble de données issues de 8 millions de pages web[2].
Chronologie des versions
Il est considéré comme le véritable tournant ayant révélé la puissance des transformeurs génératifs préentrainés pour générer du texte inédit et cohérant. OpenAI publiait avant GPT-2 ses modèles en Open source. Pour la première fois, la puissance du modèle, notamment son potentiel de nuisance, convainc ses développeurs de ne le publier que partiellement en février 2019. La version complète du modèle à 1,5 milliard de paramètres a finalement été publiée le 5 novembre[3],[4],[5]. Geoffrey Hinton révélait dans une interview que "ChatGPT en soi ne l'avait pas vraiment stupéfait, GPT-2, un des premiers modèles de langage, l'avait beaucoup plus impressionné"[6].
GPT-2 est une version augmentée de GPT-1[7], avec un nombre de paramètres et un jeu de données d'entraînement environ dix fois plus important[5]. Le modèle de langage GPT-2 est capable de réaliser des tâches relativement diverses grâce à son aptitude exceptionnelle, par rapport à l'état de la science de l'époque, à réaliser de la complétion de texte[2]. Cette capacité à prédire le prochain mot dans une séquence de mots lui permet de traduire des textes, de répondre à des questions sur un sujet donné, de résumer des passages d'un texte plus long et de générer un texte d'une qualité parfois indiscernable de celle d'un humain . Cependant, il arrivait qu'il se répète ou devienne incohérent lors de la génération de longs passages[8]. Il a été remplacé par les modèles GPT-3, GPT-4 et GPT-5, qui ne sont plus libres de droits.
GPT-2, à l'instar de son prédécesseur GPT-1 et de ses successeurs GPT-3, GPT-4 et GPT-5, utilise une architecture de type Transformeur génératif préentraînée . Il est entrainé par apprentissage profond avec un réseau de neurones artificiels, plus précisément un modèle de type transformeur[7], qui mobilise l'attention plutôt que les solutions plus anciennes basées sur la récurrence et la convolution[9],[10]. Ces mécanismes d'attention permettent au modèle de se concentrer sélectivement sur les segments du texte d'entrée qu'il prédit comme étant les plus pertinents. Ce modèle permet une parallélisation considérablement accrue et surpasse les précédents benchmarks pour les modèles basés sur les RNN/CNN/LSTM[7] .
Entraînement de GPT-2
L'architecture transformeur ayant permis une parallélisation massive, les modèles GPT ont pu être entraînés sur des corpus plus vastes que les précédents modèles d'entrainement automatique du langage naturel. Si le modèle GPT-1 a démontré la viabilité de l'approche, GPT-2 a permis d'explorer plus profondément les propriétés émergentes des réseaux entraînés sur des corpus extrêmement volumineux.
Le corpusCommonCrawl, issu du web crawling a été envisagé pour l'entrainement de GPT-2 en raison de sa taille importante, mais il a finalement été rejeté puisqu'une grande partie de son contenu était considéré comme inintelligible[2]. OpenAI a alors développé un nouveau corpus, WebText. Ce corpus d'entrainement n'était pas composé de contenu récolté de manière indiscriminée sur le Web, mais a été réalisé en collectant uniquement des publications du réseau social Reddit ayant reçu au moins 3 points de karma avant décembre 2017. Ce corpus a ensuite été légèrement nettoyé et converti en texte brut[2].
Il est connu que le coût d'entraînement de GPT-2 était de 256 dollar américain par heure[11],[12], néanmoins le nombre d'heures nécessaires à l'entraînement étant inconnu, le coût total de l'apprentissage du modèle ne peut pas être estimé avec précision[13].
Publication
GPT-2 a été annoncé pour la première fois le 14 février 2019 dans un article de The Verge. James Vincent y indiquait que, bien que « le texte qu'il produit est en principe facilement identifiable comme n'étant pas d'origine humaine », il était néanmoins « l'un des exemples les plus intéressants à ce jour » de programmes de génération de langage[14].
Le Guardian qualifiait les productions de GPT-2 comme étant « de la prose plausible pour un journal »[8] ; Kelsey Piper de Vox déclarait que ce modèle était "l’un des systèmes d’IA les plus fascinants jamais vus, qui pourrait bien être celui qui me fera perdre mon emploi. »[15] Sa flexibilité et ses capacités à réaliser des tâches diverses a particulièrement impressionné la presse[14].
Une étude de l' Université d'Amsterdam considérait que GPT-2 passait le test de Turing, au moins dans certains scénarios. C'est-à-dire que dans une interaction avec GPT-2, les participants étaient incapables de distinguer ses poèmes de ceux écrits par des humains[6].
Restrictions et publication partielle

Alors que les précédents modèles d'OpenAI avaient été immédiatement mis à la disposition du public, OpenAI a initialement refusé de publier le code source de GPT-2 lors de son annonce en février 2019, invoquant le risque d'utilisation malveillante[8]. Un accès limité au modèle (c'est-à-dire à une interface permettant la saisie et la production de texte, et non le code source lui-même) a été accordé à certains médias sélectionnés lors de l'annonce[8]. L'une des justifications avancées était que, puisque le texte généré était généralement totalement inédit, il pouvait être utilisé par des spammeurs pour contourner les filtres automatisés sur internet. En effet, OpenAI avait démontré qu'une version de GPT-2 optimisée pour cette tâche pouvait « générer une infinité d'avis positifs – ou négatifs – sur des produits »[8].
Une autre justification avancée par OpenAI était que GPT-2 pouvait permettre de générer des textes obscènes ou racistes.
Des chercheurs comme Jeremy Howard mettaient également en garde contre « cette technologie qui pourrait saturer Twitter, les messageries électroniques et le web en général de textes en apparence raisonnables et adapté au contexte, au point de noyer toute autre parole et d'être impossible à discerner de texte écrit par des humains »[14] .
Néanmoins, les avis étaient généralement partagés. L'article paru dans The Verge affirmait que la menace posée par GPT-2 avait été exagérée[16]. Anima Anandkumar, professeure à Caltech et directrice de la recherche en apprentissage automatique chez Nvidia déclarait également qu'il était infondé d'affirmer que GPT-2 avait les capacités de représenter les menaces décrites par OpenAI et que la restriction de publication du modèle était une « manœuvre malveillante » indigne des bonnes pratiques d'Open Source[16].
Publication de la version 774M
Bien qu'OpenAI n'avait toujours pas publié son modèle GPT-2 ni les corpus sur lesquels il avait été entraîné, la description des méthodes d'entrainement existant dans des publications antérieures (et la disponibilité gratuite de la technologie sous-jacente) a permis à d'autres de répliquer GPT-2 en tant que logiciel libre. Ainsi, OpenGPT-2 a été publié en août 2019, conjointement avec une version libre de WebText appelée OpenWebText. Le coût de l'entrainement d'OpenGPT-2 a été estimé à environ 50 000 $[17].
En réaction à OpenGPT-2, le 20 août 2019, OpenAI a publié une version partielle de GPT-2, avec 774 millions de paramètres (environ la moitié de ceux du modèle complet)[18].
Publication de la version complète 1.5B
En novembre 2019, puisqu'OpenAI n'avait « constaté aucune preuve tangible d'utilisation abusive » de sa version partielle de GPT-2, elle rendit publique la version complète, avec 1,5 milliard de paramètres entraînés sur quarante gigaoctets de données, « environ huit mille fois plus volumineux que l'œuvre complète de Shakespeare »[19],[3],[4].
Limites

Bien que la capacité de GPT-2 à générer des passages plausibles en langage naturel ait été largement saluée, notamment chez les spécialistes, ses lacunes restaient évidentes, en particulier pour les textes de plus de deux paragraphes.
En plus de ces répétitions, divagations et hallucinations fréquentes, il a rapidement été constaté que le déploiement de GPT-2 était très gourmand en ressources. La version complète du modèle consommait une quantité importante de RAM et une seule prédiction pouvait saturer le processeur à 100 % pendant plusieurs minutes.
Application et recherches ultérieures
GPT-2 a été utilisé pour diverses applications et services, mais aussi pour le divertissement. En juin 2019, un subreddit nommé r/SubSimulatorGPT2 a par exemple été créé. Divers instances de GPT-2 y publiaient des messages et se répondaient entre elles[20]. En juillet de la même année, un logiciel basé sur GPT-2, capable de compléter automatiquement des lignes de code dans divers langages de programmation réalisait des performances jugées comme "révolutionnaires"[21].
En 2019, AI Dungeon est lancé. Ce site utilisait GPT-2 pour générer des aventures textuelles dynamiques à partir des interactions des utilisateurs avec le modèle[22].
En février 2021, un centre de crise pour adolescents en difficulté a annoncé qu'il commencerait à utiliser un Chatbot dérivé de GPT-2 pour former ses conseillers en leur permettant d'avoir des conversations avec des adolescents simulés (cette utilisation était purement interne et n'impliquait pas que GPT-2 communique avec des adolescents)[23].
Le 9 mai 2023, OpenAI a publié une version cartographiée du système de neurone de GPT-2, réalisée grâce à un des modèles successeur, GPT-4[6].
Performances et évaluation
Grâce à l'étendue de son ensemble de données et à sa technique, GPT-2 était capable d'effectuer diverses tâches au-delà de la simple production de texte : répondre à des questions, résumer et même traduire entre langues dans divers domaines spécifiques, sans recevoir d'instructions autres que celle de prédire le mot suivant dans une séquence[14],[15].
Ainsi, GPT-2 avait la capacité d'effectuer une traduction automatique d'assez bonne qualité entre le français et l'anglais[2].
Malgré un corpus d'entrainement loin d'être optimisé pour cette tâche (il bénéficiait d'un corpus de texte français environ 500 fois plus petit que celui des autres modèles), GPT-2 surpassait plusieurs modèles de traduction automatique non supervisée sur le corpus de test français-anglais. Ce résultat restait néanmoins inférieur à celui de la meilleure approche non supervisée contemporaine (2019)[2].
| architecture | nombre de paramètres | données d'entraînement | |
|---|---|---|---|
| GPT-1 | Décodeur Transformer à 12 niveaux et 12 têtes (sans encodeur), suivi d'un softmax linéaire. | 0,12 milliard | BookCorpus[6] : 4,5 Go de texte, provenant de 7000 livres non publiés de genres variés. |
| GPT-2 | GPT-1, mais avec une normalisation modifiée | 1,5 milliard | WebText : 40 Go[19] de texte, 8 millions de documents, provenant de 45 millions de pages Web ayant reçu des votes positifs sur Reddit. |
| GPT-3 | GPT-2, mais modifié pour permettre une plus grande mise à l'échelle. | 175 milliards | 570 Go de texte brut, 300 milliards de jetons de CommonCrawl, WebText, Wikipédia en anglais et deux corpus de livres (Books1 et Books2). |
GPT-2 a été suivi de GPT-3, un modèle à 175 milliards de paramètres et révélé au public en 2020[24] (dont le code source n'a jamais été rendu public). L'accès à GPT-3 se fait exclusivement via les API proposées par OpenAI et Microsoft[25]. Les modèles suivants GPT-4 et GPT-5 ne sont pas non plus Open Source.