Generativer vortrainierter Transformer

In der modernen künstlichen Intelligenz (KI) seit Ende der 2010er Jahre ist ein sogenannter generativer vortrainierter Transformer (englisch Generative pre-trained Transformer (GPT)) ein großes Sprachmodell (englisch Large Language Model (LLM)).

GPT-Modelle basieren auf künstlichen neuronalen Netzwerken (KNN) unter Anwendung generativer KI-Modelle (englisch GenAI) und von Transformer-Architektur, die auf großen Datensätzen unmarkierter Texte vorab trainiert werden und in der Lage sind, neue Inhalte zu generieren; sie werden oft allgemein als GPTs bezeichnet.

Das erste GPT-Modell (GPT-1) wurde 2018 vom US-amerikanischen Unternehmen OpenAI vorgestellt.^[2] Erst Ende 2022 folgte der ChatGPT-Service, der eine webbasierte Benutzerschnittstelle (Prompt) zu den nachfolgenden GPT-Modellen bereitstellt. Dies ist die proprietäre Schnittstelle von OpenAI. Andere Anbieter nutzen die Programmierschnittstelle (API) von KI-Modell-Herstellern und bieten eine eigene Benutzeroberfläche an, beispielsweise DuckDuckGo.^[2]

Entstehung und Entwicklung

Sogenanntes Generatives Vortraining war bereits ein etabliertes Algorithmuskonzept in der Anwendung von maschinellem Lernen (ML).^[3]^[4]

Im Jahr 2017 veröffentlichten Forscher von Google^[5] die Arbeit Attention Is All You Need, in der die Transformerarchitektur eingeführt wurde^[1], welche stark auf dem bereits zuvor entwickelten Konzept der Aufmerksamkeit basiert und seit diesem Zeitpunkt die neue Grundlage der Softwarearchitektur von GPTs wurde.^[6] Die Modelle zuvor (unter der Domäne Natural Language Processing (NLP)) beruhten noch auf dem überwachten Lernen und manuell markierten Daten. Sie waren daher beschränkt auf annotierte Datensätze. Ein Trainieren von großen Sprachmodellen war damit zu zeitaufwendig.^[7] Die Innovation der Transformer löste dieses Problem.

Dieser Baustein (Transformer^[1]) führte zu den folgenden softwarebasierten Sprachmodellen, auch bekannt als große Sprachmodelle (LLMs), da sie mathematisch-statistisch eine große Anzahl von Wörtern verarbeiten. Ein frühes Beispiel war der Bidirectional Encoder Representations from Transformers (BERT) von Google selbst, der 2018 veröffentlicht wurde.^[8] Wenig später wurde XLNet zur Verbesserung von BERT publiziert.^[9] Sie waren vorab trainierte Transformer, aber nicht generativ konzipiert, d. h. nur als Encoder aufgebaut.^[10]

Die Entwicklungsabteilung von OpenAI arbeitete ebenfalls seit 2015 an einem neuen Modell. Das LLM-Modell GPT-1 wurde im Jahr 2018 jedoch als reines Decoder-Modell eingeführt.^[7]^[11] Es war das erste generative, vorab trainierte Transformer(GPT)-Softwaresystem. Die GPT- und BERT-Modelle wurden auf der Datenbasis BookCorpus trainiert.^[12] Dieser Datensatz bzw. Textkorpus enthält 7000 selbstpublizierte Bücher und etwas unter einer Milliarde Wörter.^[13]

Das erste generative System, basierend auf der Transformertechnik, stammte von OpenAI. Der dort verwendete halbüberwachte Ansatz umfasste zwei Phasen: eine unbeaufsichtigte, generative Vortrainings-Phase, sowie eine überwachte, diskriminative Feinabstimmungs-Phase. Bei der ersten Phase wurden die anfänglichen Parameter anhand eines Sprachmodellierungsziels festgelegt. Bei der zweiten Phase wurden diese Parameter an eine Ziel-Aufgabe angepasst.^[7]

GPT-Grundlagenmodelle

Die rasante Entwicklung der GPT-Modelle führte zu einer neuen Basis. Man spricht von einem Grundlagenmodell (englisch Foundation Model), was ein KI-Modell ist, das auf umfangreichen Daten in großem Maßstab trainiert wurde, so dass es an eine Vielzahl von nachgelagerten Aufgaben angepasst werden kann. Diese Anpassungen sind auch als Feinabstimmung (englisch Fine-Tuning) bekannt.^[14]

OpenAI GPT-Modelle

Die von OpenAI veröffentlichten GPT-Modelle wurden bisher fortlaufend nummeriert, nach einer laufenden Versionsnummer, GPT-n. Beispielsweise wurde im Jahr 2025 wurde das GPT-5 LLM-Modell veröffentlicht.^[15] Jedes dieser Modelle war in seiner Funktionalität und Leistungsfähigkeit dem Vorgänger überlegen. Dies geht einher mit einer zunehmender Größe (bei KI-Modellen die Anzahl der trainierbaren Parameter – falls diese öffentlich bekannt gegeben wurden) und besseren Trainings des Modells. Das Unternehmen hat beispielsweise zu GPT-4o und auch zuvor zu GPT-4 keine Details zur Größe oder zum Training veröffentlicht, unter Berufung auf „den Wettbewerbsdruck und die Sicherheitsauswirkungen von Modellen im großen Maßstab“.^[16] Die Modelle bilden ein Softwareartefakt und Grundlage für ihre weitere GPT-Systeme, einschließlich Modellen, die für die Anweisungsbefolgung optimiert wurden und wiederum den ChatGPT-Service als Chatbot antreiben.^[17]

Weitere Informationen Modell, Architektur ...

OpenAI „GPT-n“ LLM-Modelle
Modell	Architektur	Anzahl Parameter	Trainingsdaten	Veröffentlichungsdatum	Trainingskosten
GPT-1	12-stufiger 12-Kopf-Transformer-Decoder (kein Encoder), gefolgt von Linear-Softmax	117 Millionen	4,5 GB Text aus 7000 selbstpublizierten Büchern (BookCorpus^[18]) verschiedener Genres.	11. Juni 2018^[19]	„1 Monat auf 8 GPUs“,^[19] 1,7 · 10¹⁹ FLOP^[20]
GPT-2	GPT-1, jedoch mit modifizierter Normalisierung	1,5 Milliarden	WebText: 40 GB Text, 8 Millionen Dokumente, von 45 Millionen Webseiten, die auf Reddit positiv bewertet wurden.	erste/eingeschränkte Version: 14. Februar 2019 Vollversion: 5. November 2019^[21]	„Zehner Petaflop/s-Tag“,^[22] 1,5 · 10²¹ FLOP^[20]
GPT-3	GPT-2, jedoch mit Modifikation, um eine größere Skalierung zu ermöglichen	175 Milliarden ^[23]	499 Milliarden Token, bestehend aus CommonCrawl (570 GB), WebText, englischer Wikipedia und zwei Buchkorpora (Books1 und Books2).	28. Mai 2020^[22]	3640 Petaflop/s-Tag (Tabelle D.1)^[22] 3,1 · 10²³ FLOP^[20]
GPT-3.5	nicht veröffentlicht	175 Milliarden ^[23]	nicht veröffentlicht	15. März 2022	nicht veröffentlicht
GPT-4	Auch mit Textvorhersage und RLHF trainiert; akzeptiert sowohl Text als auch Bilder als Eingabe. Weitere Details sind nicht öffentlich.^[16]	nicht veröffentlicht	nicht veröffentlicht	14. März 2023	nicht veröffentlicht 2,1 · 10²⁵ FLOP (geschätzt)^[20]
GPT-4o	unbekannt			13. Mai 2024^[24]	nicht veröffentlicht
GPT-5	unbekannt			07. August 2025^[25]	nicht veröffentlicht

Schließen

Weitere GPT-Modelle

Andere solche Grundlagenmodelle umfassen Googles PaLM, ein breites Grundlagenmodell, das mit GPT-3 verglichen wurde,^[26]^[27] sowie Togethers GPT-JT, das als die engste Open-Source-Alternative zu GPT-3 gilt (und von früheren Open-Source-GPTs abgeleitet ist).^[28]

Meta AI (ehemals Facebook) hat ebenfalls ein generatives, transformerbasiertes Sprachmodell namens LLaMA veröffentlicht.^[29]

Grundlegende GPTs können auch Modalitäten neben Text für die Eingabe und/oder Ausgabe verwenden. GPT-4 ist ein multimodales LLM, das in der Lage ist, Text- und Bilddaten zu verarbeiten.^[30] Bezüglich multimodaler Ausgabe werden generative, transformerbasierte Modelle für Text-zu-Bild-Technologien wie Diffusion^[31] und eine parallele Dekodierung^[32] eingesetzt. Solche Modelle können als visuelle Grundlagenmodelle dienen, um nachgelagerte Systeme zu entwickeln, die mit Bildern arbeiten können.^[33]

Aufgabenorientierte Modelle

Ein grundlegendes GPT-Modell kann weiter angepasst werden, um gezieltere Systeme für spezifische Aufgaben und/oder Fachbereiche zu erstellen. Methoden für solche Anpassungen können zusätzliche Feinabstimmung (über das für das Grundlagenmodell durchgeführte hinaus) sowie bestimmte Formen der Anweisungsgestaltung umfassen.^[34]

Ein wichtiges Beispiel dafür ist die Feinabstimmung von Modellen, um Anweisungen zu befolgen, was natürlich eine recht breite Aufgabe, aber zielgerichteter als ein Grundlagenmodell ist. Im Januar 2022 führte OpenAI InstructGPT ein, eine Serie von Modellen, die mit Hilfe einer Kombination aus überwachtem Training und bestärkendem Lernen durch menschliche Rückkopplung (RLHF) auf der Basis von GPT-3-Sprachmodellen darauf trainiert wurden, Anweisungen zu befolgen.^[35]^[36] Die Vorteile gegenüber den reinen Grundlagenmodellen umfassten eine höhere Genauigkeit, weniger negative/toxische Stimmung und eine allgemein bessere Übereinstimmung mit den Benutzerbedürfnissen. Daher begann OpenAI, dies als Grundlage für seine API-Serviceangebote zu nutzen.^[37] Auch andere an Anweisungen angepasste Modelle wurden von anderen veröffentlicht, einschließlich einer vollständig offenen Version.^[38]^[39]

Eine andere (verwandte) Art von aufgabenorientierten Modellen sind Chatbots, die menschenähnliche Unterhaltungen führen. Im November 2022 startete OpenAI ChatGPT, eine Online-Chat-Schnittstelle, die von einem aufgabenangepassten Sprachmodell betrieben wird, das ähnlich wie InstructGPT trainiert wurde.^[40] Dieses Modell wurde mit RLHF trainiert, wobei menschliche KI-Trainer Gespräche führten, in denen sie sowohl den Benutzer als auch die KI spielten, und dieser neue Dialogdatensatz mit dem InstructGPT-Datensatz für ein Unterhaltungsformat kombiniert wurde, das für einen Chatbot geeignet ist. Zu den weiteren bedeutenden Chatbots gehören derzeit Microsofts Copilot, der OpenAIs GPT-4 verwendet (als Teil einer engeren Zusammenarbeit zwischen OpenAI und Microsoft),^[41] und Googles konkurrierender Chatbot Bard (ursprünglich basierend auf ihrer LaMDA-Familie von auf Konversation trainierten Sprachmodellen, mit Plänen, zu PaLM zu wechseln).^[42]

Eine weitere Art von Aufgabe, für die ein GPT verwendet werden kann, ist die Meta-Aufgabe, seine eigenen Anweisungen zu generieren, indem es eine Reihe von Vorgaben für sich selbst entwickelt, um ein allgemeineres Ziel, das von einem menschlichen Benutzer gegeben wurde, zu erreichen.^[43] Dies wird als KI-Agent bezeichnet, genauer gesagt als ein rekursiver Agent, da er Ergebnisse aus seinen vorherigen Selbstanweisungen verwendet, um ihm bei der Bildung seiner nachfolgenden Vorgaben zu helfen. Das erste bedeutende Beispiel dafür war Auto-GPT (das OpenAIs GPT-Modelle verwendet), und seitdem wurden auch andere entwickelt.^[44]

Multimodalität

Generative, transformerbasierte Systeme können auch auf Aufgaben ausgerichtet sein, die Modalitäten jenseits von Text umfassen. Microsofts Visual ChatGPT zum Beispiel kombiniert ChatGPT mit visuellen Grundlagenmodellen (VFMs), um sowohl Bilder als auch Text als Eingabe oder Ausgabe zu ermöglichen.^[45] Darüber hinaus bieten Fortschritte in der Text-to-Speech-Technologie leistungsstarke Werkzeuge für die Erstellung von Audioinhalten, wenn sie in Verbindung mit grundlegenden GPT-Sprachmodellen verwendet werden.^[46]

Domänen-Spezifität

GPT-Systeme können auf bestimmte Bereiche oder Domänen ausgerichtet werden. Einige gemeldete Beispiele für solche Modelle und Apps sind wie folgt:

EinsteinGPT für die Bereiche Vertrieb und Marketing, um bei der Kundenbeziehungspflege zu helfen (verwendet GPT-3.5).^[47]
BloombergGPT für den Finanzbereich, um bei Finanznachrichten und -informationen zu helfen (verwendet frei verfügbare KI-Methoden in Kombination mit ihren proprietären Daten).^[48]
Khanmigo eine Version von GPT für Nachhilfezwecke im Bildungsbereich, unterstützt Schüler bei der Nutzung von Khan Academy, indem es sie durch ihr Lernen führt, ohne direkte Antworten zu geben (betrieben von GPT-4).^[49]^[50]
SlackGPT für den Instant-Messaging-Dienst Slack, um bei der Navigation und Zusammenfassung von Diskussionen zu helfen (verwendet OpenAI's API).^[51]
BioGPT für den biomedizinischen Bereich, um bei der Generierung und Auswertung von biomedizinischen Literaturtexten zu helfen (verwendet GPT-2).^[52]

Manchmal wird die Domänenspezifität durch Software-Plug-Ins oder Erweiterungen erreicht. Zum Beispiel haben verschiedene Unternehmen spezielle Plug-Ins entwickelt, die direkt mit der ChatGPT-Schnittstelle von OpenAI interagieren^[53]^[54], und Google Workspace bietet Erweiterungen wie GPT für Sheets und Docs an, die angeblich die Nutzung von Tabellenkalkulationsfunktionen in Google Sheets erleichtern sollen.^[55]^[56]

Begriff GPT und Markenrechte

Der Begriff GPT wird auch in den Namen und Beschreibungen von Modellen verwendet, die nicht von OpenAI entwickelt wurden. Verschiedene Forschungseinrichtungen und Unternehmen entwickelten ebenfalls GPT genannte Sprachmodelle – dies auch bereits vor dem Durchbruch von ChatGPT3.5. Beispielhaft seien EleutherAI oder Cerebras genannt.^[57]^[58] Auch Unternehmen in verschiedenen Branchen brachten auf ihren jeweiligen Gebieten aufgabenorientierte GPTs heraus wie z. B. EinsteinGPT von Salesforce (für CRM)^[59] und BloombergGPT von Bloomberg (für Finanzen).^[60]

OpenAI, das im Jahr 2018 den ersten generativen vorab trainierten Transformer (GPT) entwickelt hatte, verlangte im Mai 2023, dass GPT als Marke von OpenAI angesehen werden sollte.^[61] Im April 2023 überarbeitete OpenAI die Markenrichtlinien in seinen Nutzungsbedingungen, um anzuzeigen, dass andere Unternehmen, die seine API nutzen, um ihre KI-Dienste auszuführen, GPT nicht mehr in ihren Namen oder ihre Marken aufnehmen sollten.^[62] Im Mai 2023 beauftragte OpenAI einen Markenverwaltungsdienst, um seine API-Kunden über diese Richtlinie zu informieren, jedoch wurden in diesen Benachrichtigungen keine offensichtlichen rechtlichen Ansprüche erhoben (wie Markenrechtsverletzungen oder Aufforderungen zur Einstellung).^[61]

Im Zusammenhang damit stellte OpenAI beim United States Patent and Trademark Office (USPTO) einen Antrag auf Inlandsregistrierung von GPT und ChatGPT als Marken im Bereich der KI. OpenAI versuchte die Bearbeitung seines Antrags zu beschleunigen, aber das USPTO lehnte diesen Antrag im Frühjahr 2023 ab.^[63] Die Registrierungsfrage zog sich über das ganze Jahr, im Februar 2024 lehnte das USPTO dann die Registrierung erneut ab.^[64] Das Patentamt begründete dies damit, dass sowohl die Abkürzung GPT als auch der Begriff Chat zu deskriptiv und allgemeingebräuchlich seien.^[65]

In der Europäischen Union wurde GPT vom Amt der Europäischen Union für geistiges Eigentum im Frühjahr 2023 zunächst als Marke von OpenAI eingetragen. Der Eintrag wird allerdings seit Frühjahr 2024 angefochten und ist zur Löschung anhängig.^[66]

In der Schweiz wurde GPT vom Eidgenössischen Institut für Geistiges Eigentum im Frühjahr 2023 als Marke von OpenAI eingetragen.^[67]^[68]

Siehe auch

Liste von Chatbots