Zero-Shot Learning

From Wikipedia, the free encyclopedia

Nullschusslernen (engl. zero-shot learning) bezeichnet Verfahren des maschinellen Lernens, bei denen ein Modell Dinge Klassen zuordnen soll, ohne dass es für diese Klassen im Training beschriftete Beispiele (gelabelte Daten) gesehen hat.[1] Damit das trotzdem gelingt, nutzen solche Modelle zusätzliches Wissen über die Klassen, zum Beispiel Attribute oder Textbeschreibungen, die als „Brücke“ zu den (unbekannten) Klassen dienen.[2]

Grundidee

Beim Nullschusslernen werden die Klassen für Training und Test absichtlich getrennt. Das Modell soll im Test also auch Klassen erkennen, zu denen es zuvor keine Trainingsbeispiele gesehen hat.[3] Die zentrale Annahme ist dabei, dass es für jede Klasse eine Beschreibung gibt (etwa Eigenschaften oder semantische Codes) und dass diese Beschreibungen auch für bisher ungesehene Klassen verfügbar sind.[1]

Funktionsweise

Viele Nullschusslernen-Methoden bringen Beobachtungen (z. B. Merkmale aus Bildern) und Klassenbeschreibungen in einen gemeinsamen Bedeutungsraum (einen Raum, in dem Ähnlichkeit semantische Nähe ausdrückt). Im Test vergleicht das Modell dann eine Beobachtung mit den verfügbaren Klassenbeschreibungen und wählt die am besten passende Beschreibung als Vorhersage.[4] In der Praxis werden dafür entweder von Menschen festgelegte Attribute verwendet (also bestimmte, definierte Eigenschaften einer Klasse, wie „hat Streifen“) oder automatisch gewonnene Sprachrepräsentationen, die aus Klassenbegriffen und Texten abgeleitet werden.[2]

Varianten und typische Schwierigkeiten

Beim generalisierten Nullschusslernen enthält der Test sowohl gesehene (aus dem Training bekannte) als auch ungesehene Klassen. Das ist realistischer, führt aber oft dazu, dass Nullschusslernen-Modelle stark zu den gesehenen Klassen tendieren und ungesehene Klassen seltener vorhersagen.[5] Für faire Vergleiche zwischen Nullschusslernen-Verfahren sind außerdem standardisierte Datensplits und klare Auswertungsprotokolle wichtig. Andernfalls können Ergebnisse künstlich besser wirken, etwas durch ungeeignete Einstellungen oder weil Informationen über die Testklassen indirekt ins Training „durchsickern“ (Informationsleck).[6]

Beispiele und Bedeutung

Moderne multimodale Vortrainingsmodelle koppeln Bild- und Sprachinformationen so eng zusammen, dass sie oft schon durch einen Text-Prompt (z. B.„ein Foto von …“) brauchbare Nullschussklassifikationen liefern, auch ohne spezielles Training auf einen bestimmten Datensatz.[7] In der Sprachverarbeitung wird Nullschusslernen zudem häufig so verstanden, dass große Sprachmodelle Aufgaben ohne zusätzliches Feinabstimmen (Fine-Tuning), allein durch eine Aufgabenbeschreibung im Prompt bearbeiten können.[8]

Einzelnachweise

Related Articles

Wikiwand AI