Large Language Model

Sprachmodell, das mit großen Mengen von Texten erstellt wurde From Wikipedia, the free encyclopedia

Ein Large Language Model, kurz LLM (englisch, teilweise übertragen großes Sprachmodell), ist die softwaretechnische Realisierung eines mathematischen Sprachmodells, das sich durch seine Fähigkeit zur Textgenerierung auszeichnet.^[1]^[2] Es handelt sich um ein sogenanntes computerlinguistisches Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozess erlernt hat und diese Fähigkeiten seinem Benutzer oder in einer anderen Anwendung zur Verfügung stellt.^[3]

Bei LLMs handelt sich dabei um eine Reihe von Techniken (Algorithmen) und anderen Softwareartefakten (Frameworks und Programmbibliotheken) im Bereich moderner künstlicher Intelligenz (KI), die seit etwa Mitte der 2010er Jahre existieren und seit den 2020er Jahren vermehrt auf der Basis des Cloud Computing bereitgestellt werden. Dabei kommen Serversysteme mit KI-optimierten Mikrochips zum Einsatz. Einige Softwareanwendungen erlauben jedoch auch die lokale Ausführung von LLMs, welche jedoch durch die Anforderungen an die Computerhardware begrenzt sind. Der Trainingsprozess der Modelle lässt sich dabei grob in drei Phasen unterteilen: 1. Datenerfassung, 2. Modelltraining und 3. Feinabstimmung. Anschließend wird das trainierte Modell mittels Inferenz abgefragt. Häufig werden vortrainierte Modelle verwendet, wie die GPT-Modelle.

LLMs sind Teil des Deep Learning (DL) oder maschinellen Lernens (ML) und zählen zu den generativen KI-Modellen (englisch Generative AI). Die Erweiterung der LLM sind die Vision Language Models (VLM)^[4], also KI-Modelle die sowohl Sprache als auch Computer Vision kombinieren. Sie sind Teil des multimodalen Lernens. Die fortschrittlichsten Entwicklungen bei den Modellen sind bekannt als Foundation Models^[5]^[2], also neuartige „Grundmodelle“ einer komplexeren KI-Softwarearchitektur.

LLMs sind ein prägendes Merkmal der KI-Ära.

Beschreibung

Große Sprachmodelle erlangen ihre Fähigkeiten durch die Verwendung großer Datenmengen, um während des Trainings riesige Mengen von Parametern zu lernen. Sie sind im weiteren Sinne künstliche neuronale Netze (NN) und werden entweder durch selbstüberwachtes Lernen (a priori) oder halbüberwachte Lernmethoden trainiert.

Für diese künstlichen neuronalen Netze werden seit etwa dem Jahr 2018 sogenannte „Transformer“-Architekturen als Kern des Modells gewählt. Bekanntheit haben dabei die Generative Pretrained Transformer (GPT) Modelle, sowie das Modell Bidirectional Encoder Representations from Transformers (BERT) erlangt. Diese Modelle sind LLMs. BERT wurde von 2018 Google veröffentlicht.^[6] Wenig später wurde „XLNet“ zur Verbesserung von BERT publiziert.^[7]

Große Sprachmodelle arbeiten als „selbstanpassende Sprachmodelle“, die „verschiedene Aufgaben in natürlicher Sprache ausführen können, z. B. das Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das nächste Token oder Wort vorhersagen“.^[8]^[9]

Nach Stephen Wolfram ist die Mechanik eines LLMs etwa wie folgt^[10]: „Es fügt einfach ein Wort nach dem anderen hinzu.“ Es wird ein „Token“ hinzugefügt, das beispielsweise nur ein Wortteil sein kann. Daher kann es vorkommen, dass neue Wörter gebildet werden. Das Programm kann „Sätze“ generieren, in denen jedes Wort unabhängig und zufällig mit der gleichen Wahrscheinlichkeit ausgewählt wird, mit der es im Korpus vorkommt. Laut Wolfram ist die Grundidee, ein Modell zu entwickeln, mit dem man die Wahrscheinlichkeiten für das Auftreten von Sequenzen schätzen könne, auch wenn man diese Sequenzen im untersuchten Textkorpus nie explizit gesehen habe. Er meint, es werden einfach Dinge gesagt, die sich „richtig anhören“, basierend darauf, wie sie im Trainingsmaterial „klangen“. Laut Wolfram sei das Ganze auf einer übergeordneten Ebene noch nicht ganz klar.^[10]

Bis etwa 2020 bestand die einzige Möglichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der sogenannten Feinabstimmung.^[11] Größere LLM-Modelle, wie z. B. das inzwischen populäre GPT-3, wurden jedoch so konzipiert, dass sie mit Hilfe des sogenannten „Prompt Engineering“ ähnliche Ergebnisse erzielen können.^[12]^[13] Zusätzlich zu der Fähigkeit, Kenntnisse über Syntax, Semantik und „Ontologie“ in menschlichen Sprachkorpora zu erwerben, wird angenommen, dass große Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.^[14]

Entstehung und Entwicklung

Vorläufer

Den modernen LLMs gingen verschiedene Entwicklungsstufen voraus.^[15]^[16]^[2] Sie beruhen auf der Verarbeitung natürlicher Sprache.^[17] Dazu zählen die statistische Zerlegung eines Textes in Fragmente, auch bekannt als N-Gramm-Analyse.

Ab den 2010er Jahren haben künstliche neuronale Netzwerke (NN) diese Fähigkeiten vertieft und erweitert. Für das „generative Lernen“ bzw. unüberwachte Lernen wurden ab 2014 die Generative Adversarial Networks (GANs) vorgestellt.^[18] Die Semi-supervised Sequence Learning-Technik, ein Trainingsalgorithmus aus dem Jahr 2015, verbessert beispielsweise das Modelltraining durch die Nutzung sowohl markierter als auch unmarkierter Daten.^[19]

Im Jahr 2016 erreichte AlphaGo, ein KI-Modell von Google DeepMind, eine neue Leistungsgrenze „künstlicher Intelligenz“ gegen den Go-Spieler Lee Sedol. Es basierte u. a. auf der Technik und Algorithmik der Convolutional Neural Network (CNN) und Monte Carlo Tree Search (MCTS) und ist primär für mathematische Spiele optimiert. Letzteres Verfahren (MCTS) ist eine Verbesserung der Minimax-Methode.

Evolution der LLMs

Blockschema der Encoder-Decoder-Architektur, der Original Transformer-Architektur von 2017.^[20]^[21] Der Output des Encoders wird zum Input für den Decoder. Dieser Transformer verzichtet auf RNNs und CNNs. Einige GPT-Modelle von OpenAI unterscheiden jedoch explizit dadurch, dass sie nur einen Decoder und spezielle Selbst-Aufmerksamkeitsmechanismen verwenden. Sie verzichten auf den Encoder.^[22]^[23] Das Modell BERT basiert hingegen auf einer Encoder-Architektur.

Diese Entwicklungen wurden wiederum durch die Inhalte der Preprint-Publikation „Attention is All You Need“^[21]^[20] (Aufmerksamkeit ist alles, was du brauchst), vorgestellt auf der Conference on Neural Information Processing Systems 2017 durch ein Google-Forscherteam, entscheidend geprägt.^[24] Ein Ziel dieser Veröffentlichung war es, die sogenannte „Sequence-to-Sequence“ oder „Seq2seq“-Technik^[25] (auch bekannt als „Encoder-Decoder-Architektur“^[26]) zu verbessern.^[27] Die Veröffentlichung führte einen sogenannten „englisch attention mechanism ‚Aufmerksamkeitsmechanismus‘“ ein.^[23]^[27]^[22]^[21.1] Die Google-Arbeit stellte somit eine neue Transformer-Technik vor.^[28]^[29]^[23]^[30] Die ersten Forschungen zu diesen Algorithmen gehen jedoch bis in die 1990er Jahre unter Jürgen Schmidhuber zurück.^[31]^[32]^[33] Mit Googles Variante war ab 2017 ein neuer Stand des (bisherigen) maschinellen Lernens (ML) oder genauer Deep Learnings (DL) für die Sprachverarbeitung (LLMs) erreicht worden. Google Research verweist dabei auf die Tensor2Tensor (T2T)-Programmbibliothek (archiviert 2023), welche ML/DL verbessert und verschiedene Transformer anbietet.^[34]^[35]^[36]

Transformer ermöglichen eine genauere und umfassendere Verarbeitung und Analyse von Textinformationen. Letztere sind sequenzielle Daten, die Transformer für Aufgaben wie Spracherzeugung und Übersetzung verstehen und erzeugen können. Sie sind ein neuronales Netzwerk, das Kontext und somit Bedeutung lernt, indem es die Beziehungen zwischen den Wörtern in einem Satz analysiert.^[37]

Im Jahr 2018, kurz nach der Veröffentlichung der Transformer-Technik^[21], wurden das Modell Bidirectional Encoder Representations from Transformers (BERT) von Google AI vorgestellt.^[38]^[39] Obwohl der ursprüngliche Transformer sowohl Encoder- als auch Decoderblöcke hat, ist BERT ein reines Encoder-Modell.^[40]

Die Entwicklungsabteilung von OpenAI arbeitete ebenfalls seit 2015 an einem neuen Modell. Das LLM-Modell GPT-1 wurde im Jahr 2018 jedoch als reines Decoder-Modell eingeführt. Die GPT- und BERT-Modelle wurden auf der Datenbasis „BookCorpus“^[41] trainiert.^[38]^[42] Dieser Datensatz bzw. Textkorpus enthält 7.000 selbstpublizierte Bücher und etwas unter einer Milliarde Wörter.^[43] Auch Google hat 2016 eine Vielzahl an Büchern für das Training seiner LLM verwendet.^[44] Forscher aus den Bereichen Industrie und Robotik versuchen hingegen, physikalische Umgebungsdaten zu erlernen und ihre Modelle entsprechend zu trainieren.^[45]

Das Modell GPT-2 wurde schließlich im Frühjahr 2019 veröffentlicht.^[46] Laut OpenAI wurde zunächst ein kleineres Modell veröffentlicht, da die Entwickler sich wie folgt äußerten: „Große, allgemeine Sprachmodelle könnten bedeutende gesellschaftliche Auswirkungen haben und bieten zudem zahlreiche kurzfristige Anwendungsmöglichkeiten.“^[46] Sie verwiesen auf eine Vielzahl möglicher böswilliger Zwecke, die mit diesen Modellen verfolgt werden können, beispielsweise Deepfakes oder irreführende Nachrichtenartikel. Die Veröffentlichung der LLMs wird teilweise von einer Richtlinie (Policy) im Sinne einer Regulierung begleitet.^[5]

GPT-2 wurde grundsätzlich so trainiert, dass es das nächste Wort in 40 GB Internettext (Daten) vorhersagen kann, d. h. wenn alle vorherigen Wörter gegeben sind. Es ist ein Sprachmodell mit 1,5 Milliarden Parametern, das mit einem Datensatz von 8 Millionen Webseiten trainiert wurden und auf Transformer-Technik basiert.^[46] Die GPT-2 Entwicklung wurde mittlerweile eingestellt und steht unter einer modifizierten MIT-Lizenz.^[47] Die Forschungsergebnisse wurden 2019 publiziert.^[48]

GPT-3 aus dem Jahr 2020 war die nächste Entwicklungsstufe. Bis zu dem Modell GPT-3.5 waren alle OpenAI GPT-Modelle nur per Programmierschnittstelle (API) zu nutzen, was sich ab Ende 2022 änderte, als die webbasierte-Schnittstelle ChatGPT veröffentlicht wurde.^[49]^[50]

2023 wurde GPT-4 für seine erhöhte Genauigkeit und als „heiliger Gral“ für seine multimodalen Fähigkeiten gepriesen.^[51] Die genaue Softwarearchitektur und weitere Details des Modells wurden jedoch nicht öffentlich bekannt gegeben.

Seit dieser Zeit haben konkurrierende Sprachmodelle hinsichtlich der Anzahl der Parameter größtenteils mit der GPT-Serie gleichgezogen.^[52] Beispielsweise übertraf im Jahr 2024 das Modell Googles Gemini Pro das GPT-4,^[53] was die Elo-Bewertung betrifft. Letztere wird im Umfeld von LLM zum Benchmarking verwendet.

Das Git-Repository von BERT wurde Ende 2025 archiviert (Entwicklung eingefroren oder gestoppt).^[54] Eine Weiterentwicklung von BERT durch Facebook AI ist bekannt geworden als RoBERTa (Robustly Optimized BERT Pretraining Approach).^[55]

Die modernsten Modelle (sowohl algorithmisch, als auch softwarearchitektonisch) werden als „Frontier Modelle“ bezeichnet. Diese Modelle weisen beispielsweise eine Mixture-of-Experts (MoE)-Architektur und weitere algorithmische Bausteine einer komplexen LLM-Architektur auf.^[56]^[57] Das MoE-Konzept geht auf Arbeiten aus den 1990er Jahren zurück und fand ihre Nutzung als Teil von ML/DL.^[58]^[59]^[60]^[61]

Die Technik der Transformer ist nach wie vor Teil der Forschung (und gegebenenfalls Entwicklung).^[30]^[62]

Umsetzungen und LLM-Hersteller

Beispiele für LLM-Software oder -Services oder -Apps sind Mistral AI, ChatGPT, Ernie Bot und Grok. Die Services sind dabei wie ein Chat aufgebaut, der mit seinem Benutzer kommuniziert, auch bekannt als Chatbot. Viele LLM-Hersteller (Unternehmen) sind Teil der modernen Digital Economy und versuchen, die LLM-Modelle zu monetarisieren. Zu den Anbietern von LLMs zählen unter anderem (Beispiele)^[63]:

Weitere Informationen Firma, Land ...

LLM-Hersteller/Unternehmen/Investor^[64]^[2]
Firma	Land	Modell(e)^[65]	Weiteres
OpenAI	USA	GPT, nach dem Fachbegriff Generativer vortrainierter Transformer, auch bekannt als „GenAI“	Verwendung in z. B. Microsoft Copilot
Google/Alphabet	USA	Gemini, Gemma und weitere Varianten
Google AI	USA	Language Model for Dialogue Applications (LaMDA)	Ein auf Dialoge (Audio) trainiertes Modell
Meta/Facebook	USA	Verschiedene LLaMA-Sprachmodelle^[66]	Open-Source-Software (OSS)
Anthropic	USA	Claude
xAI	USA	Grok^[67]
OpenAI	USA	Sora	Text-zu-Video-Generator
Alibaba	VR China	Qwen
DeepSeek	VR China	DeepSeek
01.AI	VR China	Unbekannt	Venture, Kai-Fu Lee
Z.ai	VR China	GLM	Vgl. Chinas KI-Branche
DeepL	Deutschland	Verschiedene Services	Früher Convolutional Neural Network (CNN), dann Transformer
Aleph Alpha	Deutschland	Pharia, Luminous
Mistral AI	Frankreich	Verschiedene Modelle, Mistral	Generatives KI-Modell

Schließen

Weitere Informationen LLM, Veröffentlichung ...

Übersicht einiger bekannter LLMs und Eigenschaften (Beispiele). Siehe auch^[68]*(Leere Zellen sind unbekannt oder wurden nicht weiter recherchiert.)*
LLM	Veröffentlichung^[69]	Parameter^[70]	Modellgröße	Tokens (Kontextlänge)^[71]^[72]	Mixture-of-Experts	Modalität	Datensatz/Training/Wissen	MMLU	Lizenz	Weiteres
GPT-3^[73]	29. Mai 2020	175M	klein	etwa 4k		Text	2019	Unbekannt
GPT-4^[73]	14. März 2023	nicht bekanntgeben, klein; geschätzt etwa 300M^[74]	riesig	~128k^[75]		Multimodal (Text, Bilder usw.)	Ende 2023	0.89
Grok-1	November 2023	314M	riesig	~131k		Multimodal	Oktober 2023^[76]	Unbekannt (0.875 = Grok-2)
Claude Sonnet 4	22. Mai 2025	keine Angaben (Sonnet 3 etwa 70M^[77])	riesig	~1Meg		Multimodal	Juli 2025 (Sonnet 4.5)^[78]	Unbekannt (0.904 = Sonnet 3.5)
GPT-5^[73]	7. August 2025	nicht bekanntgegeben, geschätzt 2 bis 5B^[74]	gigantisch	~400k^[79]		Multimodal	2024	0.925^[80]
GPT-OSS^[81]^[82]	5. August 2025	120M/20M	riesig	128k	x	Text				Die 20M Variante benötigt c. 32 GB RAM zum lokalen ausführen^[83]
Claude Haiku 4.5^[84]	15. Oktober 2025	keine Angaben (Haiku 3 etwa 20M^[77])	riesig	~200k		Multimodal	Juli 2025^[85]	Unbekannt
DeepSeek-R1^[86]^[87]	27. Juni 2025	671M, davon 37B „aktivierte Parameter“, plus kleinere „destillierte“ Modelle	riesig	~33k	x	Text		~0.9	MIT^[88]	Wendet Reinforcement Learning (RL) auf Basismodell an; die Architektur geht auf die Variante V3 zurück^[89]
LLM-Jargon (siehe auch das Glossar): Ein Token ist eine Zeichenkette mit semantischer Bedeutung für ein Modell. Tokenisierung ist der Prozess, bei dem die Wörter Ihrer Eingabeaufforderung in Tokens umgewandelt werden.^[90] Das Kontextfenster oder Kontextlänge eines LLM ist die Textmenge in Form von Tokens, die das Modell zu einem beliebigen Zeitpunkt berücksichtigen oder sich „merken“ kann. Je größer das Kontextfenster, desto mehr Eingaben oder Informationen können von einem Modell verarbeitet und auch Ausgegeben werden.^[91] Parameter oder Modellparameter sind eine Abbildung von Eingabedaten auf Ausgabedaten. Ein Modell versucht die Parameter so lange zu optimieren, bis das Ergebnis durch die KI dem erwarteten Ergebnis entspricht.^[92]

Schließen

LLM-Infrastruktur

IT, Rechenzentren und Energiebedarf

Das Training von LLMs benötigt extrem viele Rechenressourcen (speziell Speicher, siehe unter Hardware). Schätzungsweise benötigte das Training des GPT-4-Modells von OpenAI rund 50 GWh Energie (Strom) und kostete etwa 100 Millionen US-Dollar. Dies entspricht dem Stromverbrauch von San Francisco über drei Tage.^[93] Für diese neuen Größenordnungen in der IT-Welt werden seit den 2020er Jahren eigens entwickelte und für KI oder LLMs optimierte Rechenzentren aufgebaut.^[46]^[94]^[95] Schon heute werden rund 4,4 Prozent des gesamten Stromverbrauchs in den USA für Rechen- oder Datenzentren aufgewendet. Schätzungen zufolge wird sich diese Zahl drastisch erhöhen. Das Lawrence Berkeley National Laboratory (LBL) schätzt, dass bis 2028 mehr als die Hälfte des Stroms in Datenzentren für KI-Modelle verwendet wird. Zu diesem Zeitpunkt könnte KI allein so viel Strom verbrauchen wie 22 % aller US-Haushalte jährlich.^[93]^[96] In den USA wurde 2025 das Stargate-Projekt angekündigt, eine Initiative für KI-optimierte Rechenzentren der Administration Trump II. Des Weiteren wurde die Pax-Silica-Initiative angekündigt, um die Lieferketten bei Halbleiterprodukten zu beeinflussen und sicherzustellen.

Im Rahmen eines Projekts untersuchen Fachleute den Stromverbrauch der LLMs und sammeln die Ergebnisse in einer Datenbank namens ML.ENERGY Benchmark.^[97]^[98] Ein weiteres Teilprojekt von ML.ENERGY namens „Zeus“ versucht, den Energieverbrauch von Deep Learning (DL)-Applikationen (Modellen) zu messen und zu optimieren.^[99]

Hardware

Für LLMs kommen nur modernste Prozessorgeneration bzw. spezialisierte Mehrkernprozessoren zum Einsatz. Im speziellen sind die „KI-Beschleuniger“ gemeint. Aufgrund der parallelen Abläufe und Datenzugriffe bei Convolutional Neural Networks (CNN) haben sich Grafikprozessoren (in Form von Grafik- oder spezialisierten Prozessorkarten), die besonders gut für Fließkommaoperationen (vgl. IEEE 754) geeignet sind, als geeignete erwiesen. Um die Modelle und deren Speicheranforderungen zu optimieren („Quantisierung“), geht man von 32-, zu 16-, 8- und mittlerweile zu kleinen 4-Bit Fließkommazahlen (FP) bzw. Operationen über.^[100]^[101] Der Hintergrund ist, dass KI-Systeme für unterschiedliche Aufgaben unterschiedliche Präzisionen erfordern, die typischerweise in Bit angegeben werden. Ein kleineres Präzisionsmaß wie 8 Bit reduziert die erforderlichen Rechenleistungen. Wie bei vielen technischen Problemstellungen muss auch hier ein Kompromiss zwischen Geschwindigkeit und Genauigkeit abgewogen werden, je nach Herausforderung.

Große LLMs Modelle stellen grundlegend enorm hohe Anforderungen an den Bedarf an die Computerressourcen, speziell den Grafikprozessor (GPU) und den Grafikspeicher (VRAM, genauer: High Bandwidth Memory (HBM)), oder an einen spezialisierten „KI-Beschleuniger“ als separate Hardwareressource. Der Speicherbedarf M in GB lässt sich grob abschätzen^[102]^[103]^[104]:

$M_{min}\approx P\times (Q/8)\times (1+O)$

Darin sind P die Anzahl der Parameter in Milliarden, Q die Präzision in Bites (/8 in Bytes) und O ein zusätzlicher Speicherbedarf (Overhead) für Cache usw. in %. Für das GPT-OSS-20B-Modell werden $M_{min}\approx 20\times (16/8)\times (1+0.2)\approx 48$ GB benötigt, d. h. eine moderne, dafür ausgelegte Nvidia H100 Grafikkarte kann dies erfüllen, eine „gewöhnliche“ PC-Grafikkarten mit einstelligen GB RAM (meist DDR5) jedoch nicht. Im Falle von FP8 (Präzision der Modellgewichte während der Inferenz), werden rund 24 GB benötigt. CPU/RAM-Offloading wird in der Formel nicht berücksichtigt.

Abgesehen von diesen Modellgrößenordnungen und damit Hardwareanforderungen existieren spezialisierte ML-Modelle, z. B. TinyML oder TensorFlow Lite (ab 2026: LiteRT), für Embedded Systeme, bei denen Mikrocontroller zum Einsatz kommen.^[105]^[106] Mithilfe von LiteRT können vortrainierte Modelle genutzt oder Modelle konvertiert, optimiert und schließlich in KI-optimierter Hardware ausgeführt werden. Die genauen Verfahren (Frameworks, Workflows und kompatible Geräte) müssen im Einzelfall überprüft werden.

Klassische Recurrent Neural Networks (RNN) arbeiten hingegen sequenziell, sodass GPUs oder TPUs (s. u.) hier ihre hardwarearchitektonischen Fähigkeiten nicht voll ausspielen können.^[28.1] Neben den klassischen Grafikprozessoren, die ihren Erfolg vor allem in der Computerspieleindustrie (Computerspielebranche) haben^[107], gibt es jedoch bereits optimierte Chiparchitekturen, die für das Training und Inferencing von großen neuronalen Netzen designed worden.

In dem Jahr 2016 wurde beispielsweise von Google die erste Version ihres Tensor Processing Unit (TPU) Systems vorgestellt. Seit den 2020er Jahren gibt es aber eine ganze Reihe von Computerherstellern mit „KI-Beschleuniger“ für die Verwendung von LLMs. So haben beispielsweise die Unternehmen Cerebras den CS-1, CS-2 und CS-3, AMD die Instinct-Serie, Intel die Gaudi-Plattform und Nvidia Hopper bzw. dessen Nachfolger Blackwell eingeführt bzw. angekündigt.

Software

Innerhalb der LLM-Technologie werden Softwareartefakte teilweise in Backend- und Frontend-Anteile eingeteilt. Dabei kommen eine Vielzahl von Programmbibliotheken zum Einsatz, beispielsweise PyTorch (benötigt NumPy für diverse Matrizen-Operationen) oder TensorFlow. Auch hier spielt die Optimierung bzw. Auslagerung auf GPU-Ressourcen eine Rolle: PyTorch kann das CUDA- oder das Metal Performance Shaders (MPS)-Backend (bzw. die API) von Apple nutzen.

Pseudo-Programmaufbau (Encoder-Decoder-Architektur)

Grundlegend (vgl. das Blockschema weiter oben):

Encoder: Eingang → Aufmerksamkeit → Addieren & Normieren → Fast Forward Netz (FFN) → Addieren & Normieren
Decoder: Eingang → Maskierte Selbst-Aufmerksamkeit → Addieren & Normieren → Kreuzaufmerksamkeit → Addieren & Normieren → FFN → Addieren & Normieren → Linearisieren → Softmax

Pseudo-Programmaufbau (Decoder-Architektur, GPT)

Der Aufbau zur Vorhersage des nächsten Token in einer Sequenz:^[108]

(Annahme: Grundfunktionen Softmax, Matrixmultiplikation usw. verfügbar)
Modul: Selbst-Aufmerksamkeitsmodul (Implementiert den skalierten Skalarprodukt-Aufmerksamkeitsmechanismus)
Modul: Multi-Selbst-Aufmerksamkeitsmodule (Ermöglicht dem Modell, verschiedene Aspekte der Eingabe gleichzeitig zu berücksichtigen)
Modul: Feed-Forward-Netz (FFN)
Modul: Transformer Block (Kombiniert Multi-Selbst-Aufmerksamkeitsmodule (MHA) und Feed-Forward-Netz (FFN) mit Residualverbindungen)
GPT-Modell (Decoder-Transformer, der das nächste Token in einer Sequenz vorhersagt)
1. Initialisierung von Modellparametern
2. Initialisierung der Gewichte mit einer Normalverteilung
3. Vorwärtsdurchlauf durch das Modell (liefert die vorhergesagten Token-Logits)
4. Autoregressive Generierung neuer Token (Textgenerierung)

Rahmenprogramm

Laden und vorbereiten von Daten (Text)
Tokenisierung und Encodierung
Modell Initialisierung (siehe GPT oben)
Laden eines Optimierers zum Lernen
Trainieren des Modells (Schleife)
Speichern des Modells (Validierung, Decodierung)

Anwendungen

LLMs werden in verschiedenen IT-Umgebungen bzw. -Systemen (vgl. Cloud) im Zuge von Onlineservices von verschiedenen Internetdienstleistern angeboten. Letztere sind meist als Startups oder Innovationsabteilungen in Organisationen oder Unternehmen aufgestellt. Dabei ist es wichtig, dass einzelne Serviceanbieter unterschiedliche Modelle (oder Kombinationen) anbieten oder in ihre Produkte integrieren, beispielsweise Copilot, dort die Modelle GPT- oder Claude.^[109]

Des Weiteren können seit den 2020er Jahren manche Modelle das Internet durchsuchen (vgl. Webcrawler) und die gefundenen Daten auswerten.^[110]

Die Lizenzen in Bezug auf die Fähigkeiten, Nutzung und Datenverarbeitung der verschiedenen Modelle und Services reichen von proprietär über Open Source bis hin zu anderen. In diesem Zusammenhang spielt auch der Datenschutz eine übergeordnete Rolle.

Offene Modelle und Lokale LLMs

Einige Entwickler von LLMs bieten Modelle an, die als „Offene Modelle“ oder nach eigener Definition als „Open Source“ verfügbar sind.^[111] Dazu zählen beispielsweise die OpenAI-Modelle GPT-OSS mit „offenen Gewichten“. Dabei bezeichnen „Open Weights“ die finalen Gewichte und Bias-Werte eines trainierten neuronalen Netzes. Diese Modelle werden auch als „Dual-Use Foundation Models“ bezeichnet.^[112] Die Open Source Initiative (OSI) verfolgt eine eigene Definition von „offenen KI-Modellen“, die sich von der Definition der meisten Hersteller unterscheidet.^[113]

Offene Modelle

Im Jahr 2022 veröffentlichten über 1.000 KI-Entwickler das Modell BLOOM (BigScience Large Open-science Open-access Multilingual Language Model). Es umfasst rund 176 Milliarden Parameter, also eine Milliarde mehr als das GPT-3 Modell.^[114]

Facebook bzw. Meta veröffentlichte im Jahr 2023 das kostenfreie Modell LLaMA und verschiedene Varianten davon.

Ende 2025 veröffentliche OpenAI die GPT-OSS Modelle.^[115] Sie sind unter der „Permissive License“ von Apache 2.0 lizenziert und können konfiguriert werden, beispielsweise hinsichtlich des Aufwands für Argumentation oder der Parameter. Weitere „Open-Weight“ Modelle sind: SmolLM3^[116], Intellect 3, NHermes 4 u. dgl.

Lokale LLMs

Es besteht die Möglichkeit, vortrainierte LLMs lokal auf einem PC oder einer Workstation auszuführen.^[117] Beispiele sind:

Alibaba Qwen3
DeepSeek V3^[89]
Google Gemma 3
GPT-OSS
Mistral AI - Mistral 3

Software, die lokale LLMs unterstützen sind:

Hugging Face
Ollama
LM Studio
GPT4All

LLM-Technologie

Benchmarking

Für das Benchmarking kommen verschiedene Softwareartefakte zum Einsatz, die sich teilweise (seit 2020er Jahren) selbst in Entwicklung befinden^[118]^[119]:

American Invitational Mathematics Examination (AIME)
Biomedical Text Mining (BioNLP)
Die Plattform Chatbot Arena.^[120]^[121]
Elo-Zahl
GPQA Diamond^[122], ein Multiple-Choice-Test in MINT-Fächern
HumanEval^[123]
Logical Reasoning Test
Massive Multitask Language Understanding (MMLU) – vgl. Genauigkeit
ML.ENERGY Benchmark^[97]^[98] – Energieverbrauch von LLMs
TruthfulQA^[124] – vgl. Halluzination

Leistungsmetriken

Bei den Leistungsdaten der KI-optimierten Hardware werden teilweise die üblichen Leistungsangaben in Floating Point Operations Per Second (FLOPS) veröffentlicht. Dabei handelt es sich nur um die arithmetische Operationen im Integer (INT) oder Fließkomma (FP)-Format. Grundsätzlich werden zum Computerhardware-Benchmarking die folgenden Leistungsparameter von Mikroprozessoren oder Mikrocontrollern vermessen:^[125]

Dhrystone MIPS (DMIPS)
Gleitkommaoperationen pro Sekunde (FLOPS)
Instruktionen per Befehl (IPC)
Instruktionen pro Sekunde (IPS)

Insbesondere die IPS dienen aufgrund stagnierender Taktfrequenzzuwächse in Zyklen (Hz), oder Taktraten der CPU, als wichtiger Benchmarkwert. Dies trifft vor allem auf Mehrkernprozessoren zu. (Siehe auch die Evolution der Rechenleistung der Mikroprozessoren, wobei CPUs nicht gleichzusetzen sind mit GPUs.)

Im Falle von KI-optimierten IC-Bausteinen, z. B Mikrocontrollern (als Chips sind sie den „KI-Beschleuniger“ zuzuordnen), existieren außerdem die Größen bzw. Metriken:

GOPS oder GOP/s - Giga operations per second, und die nächste Größenordnung
TOPS oder TOP/s - Tera/trillion operations per second

Hier stehen die Operations für jede arithmetische oder logische Operation, häufig im Integer- oder Fließkomma (FP)-Format, also z. B. 8-Bit INT/FP, 16-Bit INT/FP usw. Grundlegend sind die Operationen abhängig von der Bit-Größe. Mit anderen Worten: Mit 4-Bit-FP lassen sich höhere Rechengeschwindigkeiten erreichen. Je nach Hersteller wird eine Leistungsangabe in xOPS für verschiedene INT/FP-Kombinationen veröffentlicht.

Kleine Chip-Beschleuniger (KI-Koprozessoren von Mikrocontroller) haben Leistungsangaben von beispielsweise 256 GOPS, gemessen in 8-Bit-MACs/Zyklus bei 2 GHz. Dabei stehen die MAC für Multiply-Accumulate Operationen. Eine MAC-Operation (Multiplikation und folgende Addition) zählt als zwei FLOP-Operationen. Zwei weitere Beispiele für typische Benchmarks:

Nvidia H200 GPU: 4 PetaFLOPS (FP8)^[126] bei bis zu 700 W (TDP)
NXP Ara240 NPU: 40 äquivalente TOPS^[127] bei 6,5 W

Die Rechengeschwindigkeiten für KI-Anwendungen und die Stromaufnahme der Geräte könnten nicht unterschiedlicher sein. Da die Geräte jedoch gänzlich unterschiedliche Spezifikationen haben, sind auch ihre Einsatzgebiete unterschiedlich. Die Messwerte können nicht verglichen oder umgerechnet werden. Bei gleichem Format (z. B. FP8) kann man abschätzen: 1 MAC $\approx$ 2 × FLOP, jedoch können grundsätzlich die Metriken OPS nicht mit den FLOPS verglichen werden, also xOPS $\neq$ xFLOPS.

Aufgrund der Komplexität des Themas hat sich 2018 die MLCommons-Organisation gebildet.^[128] Sie erforscht und versucht eine Vielzahl von Standards zu erarbeiten. Dazu zählen Benchmarks für KI-Algorithmen, Training und Inferenz, für mobile Anwendungen (Smartphone), für eingebettete Anwendungen (Tiny), Sicherheit usw.

Inferenz

Eine Vielzahl von Softwareartefakten zur Inferenz von LLMs existieren:

SGLang
LMDeploy
TRT-LLM
vLLM
LightLLM
Spezialisierte Software für AMD oder andere Hardware (vgl. „KI-Beschleuniger“)

Multimodal Learning

Multimodal Learning verwendet verschieden strukturierte Daten im Bereich der künstlichen Intelligenz:^[129]

Text ist eine der am häufigsten verwendeten Modalitäten im maschinellen Lernen. Textdaten enthalten strukturierte Informationen, und mithilfe der natürlichen Sprachverarbeitung lässt sich leicht Wissen aus ihnen extrahieren. Die Techniken, die zur Verarbeitung dieser Informationen verwendet werden, umfassen Tokenisierung, Lemmatisierung, Syntaxanalyse, Erkennung von benannten Entitäten und Textklassifizierung.
Bilder sind eine wesentliche Quelle visueller Informationen. Mithilfe von Convolutional Neural Networks konnten große Fortschritte beim Verständnis von Bildern erzielt werden. Verwendete Techniken sind z. B. die Objekterkennung, die Gesichtserkennung und die Segmentierung von Bildern.
Die Audiomodalität umfasst Informationen aus Sprachaufnahmen, Tondateien oder Live-Streams.
Videos sind eine leistungsstarke Quelle für multimodale Daten, weil sie visuelle und auditive Informationen kombinieren. Computer Vision und Audioverarbeitungstechniken ermöglichen es, Wissen aus einer Videosequenz zu extrahieren. Dies ermöglicht die Erkennung von sich bewegenden Objekten, die Analyse menschlicher Aktivitäten oder sogar die Erkennung von Gesten.

Bootstrapping Language-Image Pretraining

Die meisten modernen Vision-Language-Modelle benötigen während des Trainings einen hohen Rechenaufwand, weil das Training mit umfangreichen Modellen und Datensätzen erfolgt, vgl. Contrastive Language-Image Pre-training (CLIP).^[130] Die Forschung befindet sich an der Schnittstelle zwischen Sehen und Sprache. Daher ist zu erwarten, dass Vision-Language-Modelle von den leicht verfügbaren unimodalen Modellen der Bilderkennung und natürlichen Spracherkennung profitieren können.

Vortrainierte Vision-Modelle bieten eine qualitativ hochwertige visuelle Darstellung. Vortrainierte Sprachmodelle, insbesondere große Sprachmodelle, bieten leistungsstarke Fähigkeiten zur Sprachgenerierung und Zero-Shot-Übertragung. Um die Kosten zu senken und dem Problem des katastrophalen Vergessens entgegenzuwirken, bleiben die unimodalen vortrainierten Modelle während des Vortrainings eingefroren. Weil große Sprachmodelle jedoch während ihres unimodalen Vortrainings keine Bilder gesehen haben, macht das Einfrieren die visuelle Sprachausrichtung besonders schwierig.^[131]

Skalierungsgesetze

Im Rahmen des maschinellen Lernens (ML) bzw. des tiefen Lernens (DL) analysieren Forscher die Leistung künstlicher neuronaler Netze (KNN). Dazu werden verschiedene empirische bzw. theoretische Potenzgesetze erforscht, die sich durch die Veränderung von Schlüsselfaktoren auf die Leistung der Berechnungen auswirken. Es handelt sich um Methoden zur Messung der Leistung von KNN und auch LLMs. Man spricht in diesem Zusammenhang auch von Metriken.^[132]

Viele KI-Modelle lassen sich durch vier Parameter beschreiben: (1) die Anzahl der Parameter (Modellgröße ohne MoE-Architektur) N, (2) die Größe des Datensatzes D, (3) die Berechnungskosten des Trainings (Zeit) C und (4) die Verluste oder Fehlerrate L. Die vier (oder mehr) Größen werden durch reelle Zahlen (Fließkommazahlen) definiert. Je nach Untersuchungsgegenstand existieren auch viele weitere Variablen.

Für das Training des GPT-3 Modells wurde beispielsweise das Gesetz $L=L_{0}+(C_{0}/C)^{0.048}$ bestätigt.^[133]

Unterschiede ergeben sich für die Modellarchitektur (Funktionen und Komplexität der genutzten Algorithmen), beispielsweise bei der MoE-Architektur oder bei den Trainingsdaten, die in Vortraining und Feintraining aufgeteilt wurden. Das heißt, die meisten der oben genannten Faktoren hängen von anderen Variablen ab. Die Leistung eines Modells wird anhand seiner Fähigkeit bewertet, den Output anhand gegebener Eingangsdaten präzise vorherzusagen. Für LLMs nutzt man hierfür die logarithmische Plausibilitätsfunktion (der Logarithmus der Perplexität^[134]^[135]).

Das Thema „Skalierungsgesetze“ fällt in den Bereich der laufenden Forschung.^[136] KI-Wissenschaftler erforschen und testen verschiedene neuronale Potenzgesetze.^[137]^[138]^[139]

Kollaps

Bei LLM und Foundation Models anderer Art (VAE, GMM) kann es durch das andauernde Training in der laufenden Nutzung zur dauerhaften, bis zur Unbrauchbarkeit reichenden Verschlechterung der Ergebnisqualität kommen. Man spricht auch von einem sogenannten Modellkollaps.

Dies betrifft insbesondere nachfolgende Modellversionen, die mit einem zunehmenden Anteil an künstlich generierten Daten trainiert werden, d. h., dass Teile der Trainingsdaten ebenfalls von einem LLM stammen. Eine Vorsortierung der in der Regel durch Webscraping erlangten Daten erscheint bisher als zu aufwändig.^[140]

Glossar und Abkürzungen

Weitere Informationen Wort/Akronym, Bedeutung ...


Wort/Akronym	Bedeutung
Attention oder Aufmerksamkeit	Mechanismus als Teil der Transformer-Architektur.^[20]^[21] Nur-Decoder Architekturen (wie einige GPTs von OpenAI) benutzen spezielle Varianten der Aufmerksamkeitsmechanismen.^[22]^[23]
Bias	Bias sind konstante Werte, die zu einem Signalwert aus den vorherigen Schichten addiert werden. Weights (siehe dort) und Biases sind Parameter.
Decoder	Die Rückumwandlung von Informationen ist der Umkehrprozess des Encoders.^[141]
Embedding oder Worteinbettung	Als Embeddings werden Vektoren bezeichnet, die eine kontinuierliche Darstellung von Wörtern darstellen. In einem Transformer wird zunächst der Text durch Tokenisierung in Tokens zerlegt, bevor jedes Token in einen Vektor (Zahlen) konvertiert wird. Diese Vektoren werden dann in Matrizen umgewandelt, um weitere Prozessschritte zu ermöglichen.
Encoder	Eine Komponente eines neuronalen Netzes (NN), welches Eingabedaten wie Text oder Bilder in eine numerische Darstellung (Kodierung^[142]) umwandelt.^[26] Bei dieser Kodierung werden Informationen von einer Form in eine andere umgewandelt. Ein Dekodierer hingegen arbeitet genau umgekehrt.
Feinabstimmung	Die Anpassung eines vortrainierten Modells an spezifische Aufgaben oder Domänen mithilfe zusätzlicher Trainingsdaten.
Genauigkeit	Ein Maß dafür, wie oft das Modell korrekt schlussfolgern wird.
Gewichte	Siehe Weights.
Halluzination	Eine Form eines überzeugend formulierten Resultats, das nicht durch Trainingsdaten gerechtfertigt zu sein scheint und objektiv falsch sein kann.
Inferenz	Beschreibt das Durchlaufen von Datenpunkten mit einem Modell zur Vorhersage einer Klassiﬁzierung. Hier spielt die Genauigkeit eine Rolle. Anderes ausgedrückt ist Inferenz der Vorgang, bei dem ein trainiertes KI-Modell verwendet wird, um Vorhersagen auf Basis neuer Daten zu treffen. Ein trainiertes Modell versucht, die aus den Trainingsdaten gelernten Muster anzuwenden, um die korrekte Ausgabe für eine gegebene Eingabe abzuleiten.^[143]
KI-Agent	KI-Systeme, die autonom planen, Werkzeuge einsetzen und mehrstufige Aufgaben mit minimalem menschlichen Eingriff ausführen können. Siehe auch Software-Agent.
Kontextfenster oder Kontextlänge	Das Kontextfenster oder Kontextlänge eines LLM ist die Textmenge in Form von Tokens, die das Modell zu einem beliebigen Zeitpunkt berücksichtigen oder sich „merken“ kann. Je größer das Kontextfenster, desto mehr Eingaben oder Informationen können von einem Modell verarbeitet und auch Ausgegeben werden.^[91] Man kann auch von einem Kurzzeitgedächtnis bzw. Speicher des KI-Modells sprechen. Je größer dieser Speicher, desto eher kann das KI-Modell umfangreichere Antworten liefern.
Logits	Die Logits stellen die Vorhersagen des Modells dar. Sie zeigen, welcher Token als Nächstes folgen sollte.
Mixture-of-Experts (MoE)	Eine moderne LLM-Architektur zur dynamischen Aktivierung von relevanten Teilmodellen für die verbesserte Verarbeitung von Eingangsdaten.^[57] Um es zu unterscheiden, wird das Gegenstück der MoE-Architektur mittlerweile als „Dichte Architektur“ bezeichnet.
Modellkollaps	Probleme im Zusammenhang mit unkontrolliertem zusätzlichen Training eines Modells mit Resultaten anderer Modelle oder früherer Versionen desselben Modells.
Modellkomprimierung (Optimierung)	Verschiedene Techniken, darunter die Quantisierung, Destillation, Genauigkeit (Fließkommaoperationen), uvm.
Multimodal	Das Modell kann verschiedene Datentypen wie Text, Bilder, Audio und Video verarbeiten oder ausgeben (generieren).
Parameter oder Modellparameter	Parameter oder Modellparameter sind eine Abbildung von Eingabedaten auf Ausgabedaten. Ein Modell versucht die Parameter so lange zu optimieren, bis das Ergebnis durch die KI dem erwarteten Ergebnis entspricht.^[92]
Prompt	Eine Benutzereingabe im Form eines Kommandos (von einfachen Fragen bis komplexen Konstrukten), um eine Reaktion hervorzurufen oder eine Aufgabe auszuführen.^[144]
Pruning	Dieses Optimierungsverfahren ist auch als „Gewichtsreduktionsverfahren“ bekannt. Dabei werden die Gewichte der Verbindungen zwischen einigen Neuronen innerhalb des Modells reduziert und im Grenzfall auf null gesetzt. Bei einer Modellberechnung werden diese Verbindungen dann nicht berücksichtigt. Auch einzelne Neuronen können reduziert werden.
Quantisierung	Eine Komprimierungstechnik für KI-Modelle, mit der sich die Effizienz der Inferenz verbessern lässt. Dabei werden die Genauigkeit der Modellparameter, die Bias-Werte und die Aktivierungen verändert, indem die Datenformate von beispielsweise 32-Bit-Fließkommazahlen (FP32) auf eine geringere Genauigkeit, beispielsweise 8-Bit (INT8), reduziert werden. 8-Bit ist für Embedded Systeme interessant. Die Hardware (Grafikprozessor bzw. „KI-Beschleuniger“) muss diese Technik unterstützen. Stand 2026 sind 4-Bit-FP in manchen Geräten (z. B. Nvidia Produkte) möglich.^[100]^[101]
Retrieval-Augmented Generation (RAG)	Eine LLM-Technik zur Verbesserung der Genauigkeit und Zuverlässigkeit durch externe Daten und Quellen. RAGs verbessern generative LLMs.
RLHF	Eine Trainingstechnik, die menschliche Präferenzen nutzt, um die Modellausgaben an gewünschte Verhaltensweisen anzupassen. Siehe auch AI-Alignment oder Bestärkendes Lernen (RL).
RPD	Requests per Day (Anfragen pro Tag), zur Monetarisierung von LLMs.
RPM	Requests per Minute (Anfragen pro Minute), zur Monetarisierung von LLMs.
Sequenz-Autoencoder	Diese Methode kodiert eine Eingabesequenz in einen Vektor und rekonstruiert anschließend die ursprüngliche Sequenz. Sie hilft dabei, die zugrunde liegenden Muster in den Daten zu erfassen.
Sprachmodelle	Sprachmodelle sagen das nächste Element einer Sequenz auf Basis der vorherigen Elemente voraus. Sie werden häufig in der natürlichen Sprachverarbeitung (NLP) eingesetzt, um Kontext und Struktur zu verstehen.
Token	Ein Token ist eine Zeichenkette mit semantischer Bedeutung für ein Modell. Tokenisierung ist der Prozess, bei dem die Wörter Ihrer Eingabeaufforderung in Tokens umgewandelt werden.^[90] Der Satz "Dieser Satz wird zerlegt" wird zu ["Dieser", "Satz", "wird", "zerlegt"]. Jeder Token wird dann zum Embedding (Vektor). OpenAI verwendet den Tokenizer o200k_harmony für das GPT-OSS.^[145] Außerdem sind Token eine Abrechnungseinheit für die Monetarisierung von LLMs.
Transformer	Grundlegende LLM-Architektur, die Selbstaufmerksamkeitsmechanismen zur Verarbeitung von Sequenzen nutzt. Dieser Mechanismus dient dazu, Token oder Wörtern in einer Eingabesequenz abzuwägen und so die Beziehungen zwischen ihnen besser zu verstehen.^[146] LLM-Modelle werden mit dieser Technik befähigt, sich bei der Generierung von Ausgaben auf relevante Teile der Eingabe zu konzentrieren.
TPM	Token per Minute (Token pro Minute), zur Monetarisierung von LLMs.
Weights (Gewichte)	Gewichte sind numerische Werte, die die Bedeutung repräsentieren, die das LLM einer bestimmten Eingabe beimisst.^[147] Sie sind die Verbindungen zwischen den künstlichen Neuronen in verschiedenen Schichten des LLM. Weights und Biases sind Parameter.
Weitere Begriffe, siehe auch die Referenz^[148]

Schließen

KI-gestützte Kriegsführung

Das Pentagon^[149] unter Kriegsminister Pete Hegseth versucht seit spätestens dem Jahr 2025, moderne KI (LLMs oder andere KI-Software) für militärische Zwecke zu beschaffen.^[150] Dazu wurde auch eine Artificial Intelligence Strategy artikuliert.^[151]^[152] Das Chief Digital and Artificial Intelligence Office (CDAO)^[153] wurde speziell für die KI-gestützte Kampf- oder Kriegsführung ins Leben gerufen. Fachleute sehen jedoch Probleme in der zunehmenden Verbreitung von KI-Systemen über ältere, bestehende Systeme.^[154]

Anfang 2026 kam es zu einer Auseinandersetzung zwischen dem LLM-Hersteller Anthropic und dem Pentagon.^[155]^[156] Die Firma wollte vom US-Militär die Zusage, dass dieses ihr LLM-Modell Claude nicht in autonomen Waffensystemen (AWS) einsetzen wird, die in der Lage sind, Ziele ohne menschliches Eingreifen zu identifizieren und zu bekämpfen. Ebenso wurde der Verzicht auf Massenüberwachung gefordert. Ein Sprecher des Pentagon dementierte: „Wir fordern Folgendes: Erlauben Sie dem Pentagon, das Modell von Anthropic für alle rechtmäßigen Zwecke zu nutzen. Dies ist eine einfache, vernünftige Forderung, die verhindern wird, dass Anthropic kritische Militäroperationen gefährdet und möglicherweise unsere Soldaten in Gefahr bringt.“ Das Pentagon drohte Anthropic damit, die nicht verfügbaren Services (LLM-Modelle) als Lieferkettenproblem zu bezeichnen und den Defense Production Act zu aktivieren, um die Kontrolle über das Unternehmen zu erlangen.^[157] Außerdem plant das Pentagon, einzelnen Firmen den Zugang zum Trainieren von LLMs auf der Grundlage klassifizierter Daten zu ermöglichen.^[158] Aufgrund der Spannungen wurde ebenfalls der LLM-Hersteller OpenAI angefragt.^[159] Sam Altman kommentierte, dass OpenAI keinen Einfluss auf operative Entscheidungen hat und der Vertrag um folgende Formulierung ergänzt werden soll: „In Übereinstimmung mit den geltenden Gesetzen, einschließlich des Vierten Zusatzartikels zur Verfassung der Vereinigten Staaten, des National Security Act von 1947 und des FISA Act von 1978, darf das KI-System nicht absichtlich zur Überwachung von US-Bürgern und Staatsangehörigen im Inland eingesetzt werden.“ Auch die KI-Software des Unternehmens Palantir soll Teil der Beschaffungstrategie sein.^[160]

Auswirkungen und Kontroversen

Bedrohungen durch KI/LLMs

Eine längliche und LLM-übergeordnete Kontroverse findet im Rahmen des Diskurses „Existenzielles Risiko durch künstliche Intelligenz“ statt.^[161]

Ressourcenbedarf

Die Anforderungen an die Computerhardware (Halbleiterprodukte, speziell die Grafikprozessoren und Halbleiterspeicher High Bandwidth Memory (HBM), wie weiter oben ausgeführt), sowie der Energiebedarf, zunächst für das Training, und später die Inferenz eines LLMs (z. B. via ChatGPT oder generell per API), sind für diese Technologie und die gesamte IT-Branche eine einzigartige Herausforderungen.^[93]^[162] Mit den gestiegenen Anforderungen an die Ressource Energie (genauer: Strom) geht teilweise sogar die Renaissance der Kernenergie bzw. Investitionen in die neuen Small Modular Reactors (SMR) einher.^[163] (vgl. auch Atomzeitalter)

Sicherheitsaspekte

US-Präsident Joe Biden erklärte: „Künstliche Intelligenz (KI) birgt sowohl Chancen als auch Risiken.“^[112] Er ordnete im Jahr 2023 den Executive Order (EO) 14110 „Executive Order on Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence“ an.^[164]

Die LLM-Softwaretechnologie hat Einfluss auf verschiedene soziale, wirtschaftliche und politische Themen. Die Medien sprechen von einem „Wettrüsten“ beim geplanten Einsatz von KI für militärische Zwecke (vgl. der Abschnitt KI-gestützte Kriegsführung).^[165] Dieses Aufrüsten bezieht sich im speziellen auf die Computerhardware (vgl. auch „KI-Beschleuniger“) sowie die KI-Modelle und ihren automatisierten Verarbeitungsfähigkeiten.^[166] Aus Sicherheitsgründen wird die modernste Halbleitertechnologie durch Exportkontrollen eingeschränkt, beispielsweise von US-Technologie für die VR China.

Das im April 2026 von Anthropic entwickelte Modell „Mythos“ wurde angekündigt, aber nicht der Öffentlichkeit zugänglich gemacht. Anthropic argumentiert, dass das Modell über Fähigkeiten im Bereich Cybersecurity verfügt, die ein Sicherheitsrisiko darstellen würden.^[167] In ersten Tests war das Modell in der Lage, verschiedene Zero-Day-Schwachstellen zu finden, die teilweise seit zwanzig Jahren nicht entdeckt worden waren.^[168]^[169] Auf der anderer Seiten sehen Fachleute die Möglichkeiten, Angriffe mit dem Modell abzuwehren.

Siehe auch

Literatur

Endre Pap (Hrsg.): Artificial Intelligence: Theory and Applications (= Studies in Computational Intelligence. Band 973). Springer International Publishing, Cham 2021, ISBN 978-3-03072710-9, doi:10.1007/978-3-030-72711-6 (englisch).
Stephen Wolfram: What is ChatGPT doing ... and why does it work? Wolfram Media, Champaign, IL 2023, ISBN 978-1-57955-081-3 (englisch, Auch auf Deutsch erhältlich.).
Stephen Wolfram: Das Geheimnis hinter ChatGPT: wie die KI arbeitet und warum sie funktioniert (= mitp Professional). mitp-Verlag, Frechen 2023, ISBN 978-3-7475-0745-2.
Sabine Seufert, Siegfried Handschuh (Hrsg.): Generative Künstliche Intelligenz: ChatGPT und Co für Bildung, Wirtschaft und Gesellschaft. 1. Auflage. Schäffer-Poeschel Verlag, Stuttgart [Freiburg] 2024, ISBN 978-3-7910-6220-4.
Jürgen Franke, Anita Schöbel (Hrsg.): Statistical Machine Learning for Engineering with Applications (= Lecture Notes in Statistics. Band 227). Springer Nature Switzerland, Cham 2024, ISBN 978-3-03166252-2, doi:10.1007/978-3-031-66253-9 (englisch).
Jay Alammar, Maarten Grootendorst: Hands-On Large Language Models: Langauge Understanding and Generation. O’Reilly Media, Sebastopol, CA 2024, ISBN 978-1-09-815096-9 (englisch, llm-book.com).
Wolfgang Ertel: Grundkurs Künstliche Intelligenz: Eine praxisorientierte Einführung (= Computational Intelligence). Springer Fachmedien Wiesbaden, Wiesbaden 2025, ISBN 978-3-658-44954-4, doi:10.1007/978-3-658-44955-1.
Martin Warnke: Large Language Kabbala: Eine kleine Geschichte der Großen Sprachmodelle (Fröhliche Wissenschaft), Matthes & Seitz, Berlin 2026, ISBN 978-3-7518-3060-7.

Weblinks

Commons: Large Language Model – Sammlung von Bildern, Videos und Audiodateien

Large Language Model

Beschreibung

Entstehung und Entwicklung

Vorläufer

Evolution der LLMs

Umsetzungen und LLM-Hersteller

LLM-Infrastruktur

IT, Rechenzentren und Energiebedarf

Hardware

Software

Pseudo-Programmaufbau (Encoder-Decoder-Architektur)

Pseudo-Programmaufbau (Decoder-Architektur, GPT)

Rahmenprogramm

Anwendungen

Offene Modelle und Lokale LLMs

Offene Modelle

Lokale LLMs

LLM-Technologie

Benchmarking

Leistungsmetriken

Inferenz

Multimodal Learning

Bootstrapping Language-Image Pretraining

Skalierungsgesetze

Kollaps

Glossar und Abkürzungen

KI-gestützte Kriegsführung

Auswirkungen und Kontroversen

Bedrohungen durch KI/LLMs

Ressourcenbedarf

Sicherheitsaspekte

Siehe auch

Literatur

Weblinks

Einzelnachweise

Related Articles

Related Articles

Human Language Understanding & Reasoning.

How up-to-date is Claude's training data? | Claude Help Center.

DOE Releases New Report Evaluating Increase in Electricity Demand from Data Centers.

War Department Launches AI Acceleration Strategy to Secure American Military AI Dominance.

What to know about Defense Protection Act and the Pentagon's Anthropic ultimatum.