DALL-E

DALL-E (stilisiert als DALL·E) und die Nachfolger DALL-E 2 und DALL-E 3 sind von OpenAI entwickelte Computerprogramme, die Bilder aus Textbeschreibungen aufgrund von maschinellem Lernen erstellen können. Die im April 2022 veröffentlichte Version DALL-E 2 war eines der ersten öffentlich verfügbaren und allgemein nutzbaren Programmen dieser Art.

Der Name ist ein Kofferwort aus dem kleinen animierten Roboter Wall-E aus dem gleichnamigen Film und dem spanischen Surrealisten Salvador Dalí.^[1]

Das Programm nutzt künstliche neuronale Netzwerke, ⁣um Prompts (als Wortfolge eingegebenen Anweisungen) in eine Ausgabe zu transferieren, die aus angeordneten Pixeln besteht. So können fotorealistische Bilder^[2] oder auch Bilder in verschiedenen künstlerischen Stilrichtungen generiert werden.^[3] Um Bilder erzeugen zu können, wurde das Modell mithilfe von Millionen im Internet verfügbaren Bildern trainiert. Das Programm basiert auf dem ebenfalls von OpenAI entwickelten Generative Pre-trained Transformer 3 (GPT-3), einem Textgenerator, welcher Texte, Textzusammenfassungen und auch Gedichte verfassen kann.^[4]

Im März 2025 wurde DALL-E von OpenAI zurückgestuft. Als in die eigenen Chatbots integrierte Bild-KI fungiert seither GPT Image.^[5] DALL-E ist seitdem nur noch als eigenständige Applikation erreichbar, die man bewusst aufrufen muss.^[6] OpenAI selbst nennt es seither ein legacy model („veraltetes Modell“).^[7]

Technologie

Das Generative Pre-Trained-Transformer-(GPT)-Modell wurde ursprünglich von OpenAI im Jahr 2018 unter Verwendung einer Transformer-Architektur entwickelt.^[8] Die erste Iteration, GPT, wurde skaliert, um GPT-2 im Jahr 2019 zu produzieren; 2020 wurde es erneut skaliert, um GPT-3 mit 175 Milliarden Parametern zu produzieren. Das Modell von DALL-E ist eine multimodale Implementierung von GPT-3 mit 12 Milliarden Parametern, die „Text gegen Pixel austauscht“, trainiert mit Text-Bild-Paaren aus dem Internet. DALL-E 2 verwendet 3,5 Milliarden Parameter, weniger als sein Vorgänger.^[8]

DALL-E wurde in Verbindung mit CLIP (Contrastive Language-Image Pre-training) entwickelt und der Öffentlichkeit vorgestellt. CLIP ist ein separates Modell, das auf Zero-Shot-Lernen basiert und mit 400 Millionen Bildpaaren mit Textbeschriftungen aus dem Internet trainiert wurde. Seine Aufgabe besteht darin, die Ausgabe von DALL-E zu „verstehen und einzustufen“, indem vorhergesagt wird, welche Beschriftung aus einer Liste von 32.768 zufällig aus dem Datensatz ausgewählten Beschriftungen (von denen eine die richtige Antwort war) für ein Bild am besten geeignet ist. Dieses Modell wird verwendet, um eine größere anfängliche Liste von Bildern zu filtern, die von DALL-E generiert wurden, um die am besten geeigneten Ausgaben auszuwählen.

DALL-E 2 verwendet ein Diffusionsmodell, das auf CLIP-Bildeinbettungen konditioniert ist, die während der Inferenz aus CLIP-Texteinbettungen durch ein früheres Modell generiert werden.

Versionsüberblick

DALL-E wurde am 5. Januar 2021 von OpenAI vorgestellt.^[9] Bei der Ankündigung hieß es, die Software befinde sich noch in der Forschungsphase und der Zugang sei auf vorab ausgewählte Betanutzer beschränkt. Das Modell kann immer noch schwerwiegende Fehler machen, auch solche, die kein Mensch machen würde.^[10] Die verbesserte Version DALL-E 2.0 wurde im April 2022 vorgestellt.^[11] Öffentlich verfügbar ist seit dem 21. April 2022 die weniger leistungsfähige Version Craiyon (anfangs bekannt als DALL-E mini), welche auf dem Quellcode von DALL-E beruht. Die surrealen Bilder des Modells wurden prompt von Internetnutzern zur Erstellung von Memes benutzt.^[12]^[13]

Im September 2022 wurde die allgemeine Verfügbarkeit von DALL-E 2.0 bekannt gegeben.^[14]^[15]

DALL-E 3 wurde im Oktober 2023 für ChatGPT-Plus- und ChatGPT-Enterprise-Kunden veröffentlicht.^[16]

Meinungen zu DALL-E

Die Leistungsfähigkeit des Modells wurde 2022 als „beeindruckend“^[1] und „unheimlich“^[17] bezeichnet. Manche Beobachter sahen es seinerzeit als Zeichen für starke Fortschritte im Machine Learning. Entwickler von OpenAI und Sam Altman, der CEO, erklärten DALL-E zu einem entscheidenden Schritt auf dem Weg zu künstlicher allgemeiner Intelligenz. Andere widersprachen, es handle sich bei DALL-E um keine mit dem Menschen vergleichbare Intelligenz, da es keinerlei generelles Verständnis von Konzepten ausweist. Zudem würde es weiterhin viele Fehler machen, die auf dem fehlenden Verständnis für Objekte in der physischen Welt beruhen.^[18] Das Modell könne dennoch starken Einfluss auf Künstler und Grafikdesigner haben.^[19] Die Generierung von Desinformation und gefälschten Bildern wurde im April 2022 in einem Artikel der New York Times befürchtet.^[20] Ein Artikel im Spiegel wies im Juni 2022 darauf hin, dass das Programm eine kulturelle Voreingenommenheit besitzen könne, da es allein auf der englischen Sprache beruht und die Bilder zum Training des Programms zum größten Teil aus dem westlichen Kulturkreis stammen und generierte Bilder deshalb stereotype Vorstellungen widerspiegeln können.^[12]

Siehe auch

Literatur

Jens Knappe: Genesis. Eine Schöpfungsgeschichte in Zusammenarbeit mit einer Künstlichen Intelligenz. Berlin 2022, ISBN 978-3-940948-45-8.

Weblinks

Commons: DALL-E – Sammlung von Bildern

DALL-E bei OpenAI
DALL-E 2 bei OpenAI
DALL-E 3 bei OpenAI