Tensor Processing Unit

Tensor Processing Units (TPUs), auch Tensor-Prozessoren, sind anwendungsspezifische Chips zur Beschleunigung von maschinellem Lernen. TPUs werden vor allem genutzt, um Daten in künstlichen neuronalen Netzen zu verarbeiten (siehe Deep Learning).

Die von Google entwickelten TPUs wurden speziell für die Softwaresammlung TensorFlow^[1] entworfen. TPUs sind die Basis für alle Google Services, die maschinelles Lernen einsetzen, und wurden auch in den AlphaGo-Maschine-vs.-Mensch-Wettkämpfen gegen Lee Sedol, einen der weltbesten Go-Spieler, eingesetzt.^[2]

Im November 2025 kündigte Google an, seine Chips zum Verkauf anzubieten, unter anderem an Meta, womit das Unternehmen in Konkurrenz zu Nvidia tritt.^[3]

Generationen der Tensor Processing Units

Erste Generation

Die erste Generation von Googles TPU wurde auf der Google I/O 2016 vorgestellt und entworfen, um die Anwendung bereits trainierter künstlicher neuronaler Netzwerke zu unterstützen.^[4] Dies wurde u. a. durch eine geringere Präzision im Vergleich zu normalen CPUs oder GPUs und eine Spezialisierung auf Matrizenoperationen erreicht.

Die TPU besteht aus einem systolischen Array mit einer 256×256-8-Bit-Matrizenmultiplikationseinheit (MMU), welche von einem Mikroprozessor mit einem CISC-Befehlsatz angesteuert wird. Der Chip entstand in einem 28-nm-Prozess und taktete mit 700 MHz bei einer Thermal Design Power von 28 bis 40 W. Die TPU besitzt 28 MiB Arbeitsspeicher am Chip. Zudem sind 4-MiB-32-Bit-Akkumulatoren verbaut, welche die Ergebnisse der Matrizenmultiplikationseinheit übernehmen. Die TPU kann Matrizenmultiplikationen, Faltungen und Aktivierungsfunktionen sowie Datentransfer zum Hostsystem über PCIe 3.0 oder zum DDR3 DRAM, welcher sich am Board befindet, ausführen.

Zweite Generation

Die zweite Generation (TPUv2) wurde auf der Google I/O 2017 vorgestellt. Ziel war, die Anwendung neuronaler Netzwerke (Inferenz) wie auch das Training dieser Netzwerke zu beschleunigen. Diese TPUs besitzen zwei „Matrizenausführungseinheiten“ (Matrix Execution Unit; MXU) mit je 8 GiB Arbeitsspeicher.^[5] Jede MXU weist eine Rechenleistung von 22,5 TFLOPS auf, wobei der bfloat16-Datentyp zum Einsatz kommt. Dieser entspricht nicht IEEE 754.^[5] Ein TPU-Board mit vier TPUs kommt somit auf 180 TFLOPS. Die TPUs werden zu einem „Pod“ mit 11,5 PFLOPS zusammengeschaltet, einem Rechnerverbund (Cluster-Systemarchitektur) von 256 TPUs und 128 Server-CPUs. Die TPUs sind in einer sphärenförmigen (2D-Torus) Netzwerktopologie von je 8×8 TPUs verbunden. Zur Verbindung der CPUs mit den TPUs kommt PCI-Express 3.0 mit 32 Lanes (8 Lanes je TPU) zum Einsatz.^[5]

Die TPUs der zweiten Generation sind in Form der Google Compute Engine, einem Cloud-Angebot von Google, nutzbar. Um die Speicherbandbreite der Architektur zu erhöhen, kommt HBM-Speicher zum Einsatz.^[6]

Dritte Generation

Die dritte TPU-Generation (TPU 3.0) wurde auf der Google I/O 2018 vorgestellt. Sie besitzen 4 MXUs mit je 8 GiB Arbeitsspeicher (32 GiB je TPU).^[5] Die Netzwerktopologie der TPUs ist ebenfalls in Form eines 2D-Torus ausgelegt. Die Racks besitzen eine Wasserkühlung.^[5] TPU 3.0-Pods bestehen aus 8 Racks mit insgesamt 1024 TPUs und 256 Server-CPUs. Die Rechenleistung eines Pod liegt bei knapp über 100 PFLOPS.^[5]

Vierte Generation

Die vierte Generation (TPU v4) stellte Google im Dezember 2021 vor.^[7] Mit den sogenannten SparseCores und Optical Circuit Switches (OCS) kann der TPU v4 interne Verbindungen dynamisch rekonfigurieren und skalieren. Das optische Netzwerk kann außerdem an die Struktur des berechneten KI-Modells angepasst werden. Die Sicherheit soll durch die Trennung der Racks auf Netzwerkebene erhöht werden. Der OCS ist verhältnismäßig günstig, da er unter fünf Prozent der Gesamtkosten der TPU ausmacht. Bei der Leistungsaufnahme schlägt das optische Netzwerk mit unter drei Prozent ebenfalls kaum zu Buche.^[8]

Die TPU v4 hat dank einer Umstellung auf eine 7-nm-Fertigung und einer Transistorzahl von 22 Milliarden eine mehr als doppelt so hohe Rechenleistung von 275 TFLOPS bei bfloat16 und int8. Trotzdem ist sie mit nur 600 mm² kleiner und verbraucht maximal 192 Watt, was im Vergleich zur TPU v3 eine Einsparung darstellt.^[9]

Fünfte Generation

Die fünfte Generation der TPU wurde 2023 in zwei Varianten vorgestellt: Im August 2023 kündigte Google den auf Inferenz und Kosteneffizienz optimierten TPU v5e an, im Dezember 2023 folgte der leistungsstärkere TPU v5p für das Training großer Sprachmodelle. Ein TPU-v5p-Pod umfasst bis zu 8960 Chips, die über einen 3D-Torus mit bis zu 4800 GBit/s pro Chip verbunden sind.^[10] Gegenüber dem TPU v4 bietet der v5p etwa die doppelte Rechenleistung und die dreifache Kapazität an High-Bandwidth-Memory (HBM).

Sechste Generation

Im Mai 2024 stellte Google auf der Konferenz Google I/O die sechste Generation unter dem Namen Trillium (TPU v6e) vor, die im Dezember 2024 für Google-Cloud-Kunden verfügbar wurde.^[11] Trillium erreicht nach Angaben von Google eine etwa 4,7-fache Spitzenrechenleistung pro Chip gegenüber dem TPU v5e bei gleichzeitig verdoppelter HBM-Kapazität und -Bandbreite. Die Energieeffizienz liegt nach Herstellerangaben um rund 67 Prozent höher als beim TPU v5e. Ein Trillium-Pod umfasst bis zu 256 Chips; über Multislice-Technologie und die Jupiter-Netzwerkinfrastruktur können mehr als 100.000 Chips zu einem Rechenverbund zusammengeschaltet werden. Trillium wurde unter anderem zum Training des Sprachmodells Gemini 2.0 eingesetzt.^[12]

Siebte Generation

Im April 2025 wurden auf der Google Cloud Next conference zwei "Ironwood"-TPU's vorgestellt, einmal als Cluster mit 256 Chips sowie mit 9216 Chips. Als Spitzenrechenleistung wurden 4614 TFLOP/s angegeben.^[13]

Achte Generation

Im Jahre 2026 entwickelt Google die TPU 8t-Architektur zum Training von KI-Modellen, um Entwicklungszeiten für große Modelle von Monaten auf Wochen zu verkürzen. Die TPU 8i-Architektur ist hingegen ausgerichtet auf „Inferenz“, um fertig trainierte KI anzuwenden und schnell auf Eingaben zu reagieren. Diese neuen Chips, die von Googles Arm-basierten Axion-Prozessoren angetrieben werden, minimieren Verzögerungen, die dadurch entstehen, dass Prozessoren untätig auf den Datenaustausch warten. Die achte TPU-Generation liefert bis zu doppelt so viel Leistung pro Watt wie der Vorgänger - auch durch die Flüssigkeitskühlung der vierten Generation. Ihre Verfügbarkeit wurde am 22. April 2026 erklärt.^[14]

Tabellarische Übersicht über einzelne TPU-Parameter

Weitere Informationen TPU v1, TPU v2 ...

Tensor Processing Units^[15]^[16]^[17]
	TPU v1	TPU v2	TPU v3	TPU v4	Edge v1
Einführungsdatum	2016	2017	2018	2021	2018
Technologieknoten	28 nm	16 nm		7 nm
Die-Größe (mm²)	331	< 625	< 700	< 400
On-Chip-Speicher (MiB)	28	32		144
Taktgeschwindigkeit (MHz)	700		940	1050
Speicher	8 GiB DDR3	16 GiB HBM	32 GiB HBM
Speicherbandbreite	34 GB/s	600 GB/s	900 GB/s	1200 GB/s
Thermal Design Power (W)	75	280	220	170	2
TFLOPS	23	45	123	275	4
TFLOPS/W	0.31	0.16	0.56	1.62	2

Schließen

Siehe auch

Google Tensor, SoC von Google mit integrierter TPU

Literatur

Norman P. Jouppi, Cliff Young, Nishant Patil, David Patterson: A domain-specific architecture for deep neural networks. In: Communications of the ACM. 61, 2018, S. 50, doi:10.1145/3154484.
Norman P. Jouppi u. a.: TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings. In: arxiv.org. 4. April 2023; abgerufen am 6. April 2023 (englisch). doi:10.48550/arXiv.2304.01433

Weblinks

Cloud TPUs (TensorFlow @ O’Reilly AI Conference, San Francisco '18) auf YouTube, vom 25. Oktober 2018
A simple classification model using Keras with Cloud TPUs. In: colab.research.google.com. Abgerufen am 10. November 2018 (englisch).
Edge TPU Devices. In: aiyprojects.withgoogle.com. Abgerufen am 22. März 2019 (englisch).
Sebastian Grüner: Tensor Processing Unit: Google baut eigene Chips für maschinelles Lernen. In: golem.de. 19. Mai 2016, abgerufen am 23. November 2016 (englisch).
Harald Bögeholz: Künstliche Intelligenz: Architektur und Performance von Googles KI-Chip TPU – heise online. In: heise.de. 6. April 2017, abgerufen am 7. April 2017.
David Patterson, Google TPU Team: In-Data Center Performance Analysis of a Tensor Processing Unit. (PDF) 2. April 2017, abgerufen am 23. Mai 2017 (englisch).

Patente

Patent US20160342889: Vector Computation Unit in Neural Network Processor. Angemeldet am 3. September 2015, veröffentlicht am 24. November 2016, Anmelder: Google Inc., Erfinder: Gregory Michael Thorson, Christopher Aaron Clark, Dan Luu.
Patent WO2016186823: Batch Processing in a Neural Network Processor. Angemeldet am 3. März 2016, veröffentlicht am 24. November 2016, Anmelder: Google Inc., Erfinder: Reginald Clifford Young.
Patent WO2016186801: Neural Network Processor. Angemeldet am 26. April 2016, veröffentlicht am 24. November 2016, Anmelder: Google Inc., Erfinder: Jonathan Ross, Norman Paul Jouppi, Andrew Everett Phelps, Reginald Clifford Young, Thomas Norrie, Gregory Michael Thorson, Dan Luu.
Patent WO2014105865: System and method for parallelizing convolutional neural networks. Angemeldet am 23. Dezember 2013, veröffentlicht am 3. Juli 2014, Anmelder: Google Inc., Erfinder: Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton.

	nach Wortbreite	1-Bit-Architektur • Bit-Slice-Architektur • 4-Bit-Architektur • 8-Bit-Architektur • 16-Bit-Architektur • 32-Bit-Architektur • 64-Bit-Architektur
	nach Befehlssatzaufbau	CISC • EPIC • NISC • RISC • VLIW • Mikroarchitektur
	mit Optimierung für Einsatzzweck	(Haupt-)Prozessor • Hardwarebeschleunigung • Grafikprozessor • GPGPU • Streamprozessor • Soundprozessor • Gleitkommaeinheit • Netzwerkprozessor • Physikbeschleuniger • Vektorprozessor • Tensor Processing Unit