ReCAPTCHA
Captcha-Dienst
From Wikipedia, the free encyclopedia
reCAPTCHA ist ein Captcha-Dienst, der seit 2009 von der Google LLC betrieben wird. Dieser versucht zu unterscheiden, ob eine bestimmte Handlung im Internet von einem Menschen oder von einem Computerprogramm bzw. Bot vorgenommen wird.

Der vollautomatische öffentliche Vorgang ähnelt somit dem Turing-Test.
Geschichte
Laut einer Hochrechnung der Carnegie Mellon University verbrachten Internetnutzer im Jahr 2004 weltweit pro Tag 150.000 Stunden damit, Captchas zu lösen.[1] Die Regelmäßigkeit und Unentgeltlichkeit dieser Arbeitsleistung führte zu der Idee, sie für sinnvolle Zwecke einzusetzen. Der Informatiker Luis von Ahn, der im Jahr 2000 maßgeblich an der Erfindung des CAPTCHA-Verfahrens beteiligt war, entwickelte daraus im Jahr 2007 ein System namens reCAPTCHA, das bei der Buch-Digitalisierung eingescannte Wörter, die die Texterkennungssoftware nicht erkennt, durch die Eingabe von CAPTCHAs optimiert. Das System bezog seine Wörter anfangs aus einem Bereich des Internet Archives, der sich mit dem Digitalisieren von Büchern beschäftigt. Zudem half der Dienst bei der Digitalisierung des Archivs aller verfügbaren 130 Jahrgänge der New York Times:[2] Innerhalb weniger Monate nach Beginn dieses Projekts im Jahr 2009 waren bereits 20 Jahrgänge digitalisiert.
Im September 2009 kaufte Google das Unternehmen reCAPTCHA.[3] Google profitiert dadurch, weil es Teil seines Betätigungsfeldes ist, Bücher und andere Druckerzeugnisse zu digitalisieren.[4][5] Im März 2012 wurde bestätigt, dass Google inzwischen auch Hausnummern aus Google Street View erkennen lässt, um die Datenbasis für Google Maps zu optimieren.[6][7] Seit etwa Oktober 2015 werden auch vermehrt Straßenschilder angezeigt, deren erkannte Straßennamen ebenfalls zur Verbesserung von Street View benutzt werden.[8] Teilweise werden nur noch diese Straßenschilder und Hausnummern zur Erkennung angezeigt und nicht mehr Ausschnitte aus eingescannten Büchern.
Ab Ende 2018 stellte Google die Version reCAPTCHA v3 vor, bei der keine sichtbare Herausforderung mehr nötig ist: Stattdessen wird das Nutzerverhalten im Hintergrund analysiert, ein Risiko-Score vergeben und je nach Wert eine Aktion ausgelöst.[9]
Im Oktober 2023 wurde festgestellt, dass der Chatbot OpenAI CAPTCHAs lösen kann.[10] Der Dienst wurde wegen mangelnder Sicherheit und Zugänglichkeit bei der Erfassung von Nutzerdaten kritisiert. Eine Studie aus dem Jahr 2023 schätzt die Gesamtkosten für die Zeit, die Menschen für die Lösung von CAPTCHAs aufwenden, auf 6,1 Milliarden US-Dollar an Löhnen.[11] Der dadurch verursachte Datenverkehr betrug zum Zeitpunkt der Studie um die 134 Terabytes an Bandbreite. Dies entspricht etwa 7,5 Millionen kWh Energie und damit ca. 3402 Tonnen CO2-Emissionen.[12]
Funktion und Verwendung

Bei älteren Versionen von reCAPTCHA wurde oft eine Herausforderung angezeigt, etwa das Eingeben von zwei Wörtern – eines war dem System bereits bekannt, das andere stammte aus einem Digitalisierungsprojekt unbekannter Herkunft. Dieses Vorgehen diente dazu, Bildertexte (z. B. aus Büchern) manuell nachzutragen.
Heute funktioniert reCAPTCHA primär im Hintergrund als Risikoanalyse-System: Es beobachtet Interaktionen eines Besuchers mit der Website (z. B. Mausbewegungen, Klickverhalten, Zeit auf der Seite) und weist jeder Aktion einen Score zu; z. B. bei der Version v3 zwischen 0.0 (wahrscheinlich Bot) und 1.0 (wahrscheinlich Mensch). Basierend auf diesem Score entscheidet die Betreiber-Website, ob eine sichtbare Herausforderung angezeigt werden muss (z. B. eine Checkbox „Ich bin kein Roboter“ oder eine Bildauswahl) oder ob der Zugriff ohne weiteres Zutun erlaubt wird.[13][9] Nur wenn das System bei einem Nutzer unsicher ist, wird ein zusätzlicher Test angezeigt. Bei diesem müssen beispielsweise alle Bilder ausgewählt werden, die ein bestimmtes Objekt (z. B. Ampeln oder Zebrastreifen) enthalten.
Dadurch wird der Nutzer nicht mehr, wie bei den früheren Versionen, regelmäßig aktiv in die Buch- oder Zeitungsdigitalisierung eingebunden. Vielmehr steht das Ziel im Vordergrund, automatisierten Bot-Traffic zu erkennen und menschlichen Traffic möglichst reibungslos passieren zu lassen.
Betreiber von Websites integrieren reCAPTCHA weiterhin über Plugins oder direkt via API[14] und wählen je nach Risikoeinschätzung die passende Version, also v2 mit Checkbox bzw. Bilderkennung oder v3 mit unsichtbarer Risikoanalyse.
Datenschutz
Wann immer diese Technik eingesetzt wird, werden personenbezogene Daten (IP-Adresse, Zugriffsort und Zeitpunkt) an Google weitergeleitet. In der Regel hat Google zum selben Zeitpunkt weitere Daten vom Nutzer, nämlich aufgrund der zahlreichen Hintergrunddienste auf sonstigen Webseiten, die Google zum Einbau anbietet: Google Maps, Google Analytics, Google Ads etc. Damit ist umfassendes Tracking möglich.[15]
Weblinks
- reCAPTCHA-Webseite von Google (englisch)