Zero-Shot Learning

From Wikipedia, the free encyclopedia

Nullschusslernen (engl. zero-shot learning) bezeichnet Verfahren des maschinellen Lernens, bei denen ein Modell Dinge Klassen zuordnen soll, ohne dass es für diese Klassen im Training beschriftete Beispiele (gelabelte Daten) gesehen hat.^[1] Damit das trotzdem gelingt, nutzen solche Modelle zusätzliches Wissen über die Klassen, zum Beispiel Attribute oder Textbeschreibungen, die als „Brücke“ zu den (unbekannten) Klassen dienen.^[2]

Grundidee

Beim Nullschusslernen werden die Klassen für Training und Test absichtlich getrennt. Das Modell soll im Test also auch Klassen erkennen, zu denen es zuvor keine Trainingsbeispiele gesehen hat.^[3] Die zentrale Annahme ist dabei, dass es für jede Klasse eine Beschreibung gibt (etwa Eigenschaften oder semantische Codes) und dass diese Beschreibungen auch für bisher ungesehene Klassen verfügbar sind.^[1]

Funktionsweise

Viele Nullschusslernen-Methoden bringen Beobachtungen (z. B. Merkmale aus Bildern) und Klassenbeschreibungen in einen gemeinsamen Bedeutungsraum (einen Raum, in dem Ähnlichkeit semantische Nähe ausdrückt). Im Test vergleicht das Modell dann eine Beobachtung mit den verfügbaren Klassenbeschreibungen und wählt die am besten passende Beschreibung als Vorhersage.^[4] In der Praxis werden dafür entweder von Menschen festgelegte Attribute verwendet (also bestimmte, definierte Eigenschaften einer Klasse, wie „hat Streifen“) oder automatisch gewonnene Sprachrepräsentationen, die aus Klassenbegriffen und Texten abgeleitet werden.^[2]

Varianten und typische Schwierigkeiten

Beim generalisierten Nullschusslernen enthält der Test sowohl gesehene (aus dem Training bekannte) als auch ungesehene Klassen. Das ist realistischer, führt aber oft dazu, dass Nullschusslernen-Modelle stark zu den gesehenen Klassen tendieren und ungesehene Klassen seltener vorhersagen.^[5] Für faire Vergleiche zwischen Nullschusslernen-Verfahren sind außerdem standardisierte Datensplits und klare Auswertungsprotokolle wichtig. Andernfalls können Ergebnisse künstlich besser wirken, etwas durch ungeeignete Einstellungen oder weil Informationen über die Testklassen indirekt ins Training „durchsickern“ (Informationsleck).^[6]

Beispiele und Bedeutung

Moderne multimodale Vortrainingsmodelle koppeln Bild- und Sprachinformationen so eng zusammen, dass sie oft schon durch einen Text-Prompt (z. B.„ein Foto von …“) brauchbare Nullschussklassifikationen liefern, auch ohne spezielles Training auf einen bestimmten Datensatz.^[7] In der Sprachverarbeitung wird Nullschusslernen zudem häufig so verstanden, dass große Sprachmodelle Aufgaben ohne zusätzliches Feinabstimmen (Fine-Tuning), allein durch eine Aufgabenbeschreibung im Prompt bearbeiten können.^[8]

Einzelnachweise

[1]
Wang, W., Zheng, V. W., Yu, H., & Miao, C. (2019). A Survey of Zero-Shot Learning: Settings, Methods, and Applications. ACM Transactions on Intelligent Systems and Technology, 10(2), Article 13, 13:1–13:37. https://doi.org/10.1145/3293318
[2]
Lampert, C. H., Nickisch, H., & Harmeling, S. (2014). Attribute-Based Classification for Zero-Shot Visual Object Categorization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(3), 453–465. https://doi.org/10.1109/TPAMI.2013.140
[3]
Palatucci, M., Pomerleau, D., Hinton, G. E., & Mitchell, T. M. (2009). Zero-shot Learning with Semantic Output Codes. In Advances in Neural Information Processing Systems 22 (pp. 1410–1418). Curran Associates, Inc.
[4]
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). DeViSE: A Deep Visual-Semantic Embedding Model. In Advances in Neural Information Processing Systems 26 (pp. 2121–2129). Curran Associates, Inc.
[5]
Chao, W.-L., Changpinyo, S., Gong, B., & Sha, F. (2016). An Empirical Study and Analysis of Generalized Zero-Shot Learning for Object Recognition in the Wild. In B. Leibe et al. (Eds.), Computer Vision – ECCV 2016 (Lecture Notes in Computer Science, Vol. 9906, pp. 52–68). Springer. https://doi.org/10.1007/978-3-319-46475-6_4
[6]
Xian, Y., Lampert, C. H., Schiele, B., & Akata, Z. (2019). Zero-Shot Learning – A Comprehensive Evaluation of the Good, the Bad and the Ugly. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(9), 2251–2265. https://doi.org/10.1109/TPAMI.2018.2857768
[7]
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (Proceedings of Machine Learning Research, Vol. 139, pp. 8748–8763). PMLR.
[8]
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., … Amodei, D. (2020). Language Models are Few-Shot Learners. In Advances in Neural Information Processing Systems 33. Curran Associates, Inc.

Related Articles