Common Voice

Common Voice ist ein 2017^[1] von Mozilla gestartetes Crowdsourcing-Projekt zur Sammlung von Sprachdaten, die aus der Aufnahme von vorgelesenen Sätzen oder Worten bestehen. Die Daten stammen aus vielen Sprachen und werden von Freiwilligen eingesprochen und überprüft.

Sprachenmultilingual (Liste der Sprachen)

BetreiberMozilla Foundation

RegistrierungOptional

Onlineseit 19. Juni 2017

Schnelle Fakten Sprachen, Betreiber ...

https://commonvoice.mozilla.org/
Common Voice

„Maschinen beibringen, wie echte Menschen sprechen“
Sammlung von gesprochenen Sätzen für eine Spracherkennungs-Datenbank
Sprachen	multilingual (Liste der Sprachen)
Betreiber	Mozilla Foundation
Registrierung	Optional
Online	seit 19. Juni 2017
(aktualisiert 24. Nov. 2024)

Schließen

Nach der Anmeldung auf dem Portal von Common Voice, das mit einem Ziel- und Belohnungssystem für die Teilnahme ausgestattet ist, werden entweder Beispielsätze aus der Wikipedia zum Lesen und Aufnehmen oder die Aufnahmen anderer Nutzer zur Verifizierung angeboten. Die gesamten Daten sind gemeinfrei („CC0“). Common Voice erschien als Antwort auf die Sprachassistenten der großen Unternehmen, wie Amazon Echo, Siri oder Google Assistant.^[2]^[3]

Namensgebung

Der Name „Common Voice“ stammt aus dem Englischen und bedeutet übersetzt etwa „gemeinsame Stimme“. Mozilla hat den Namen in Anlehnung an Creative Commons gewählt, was auf den gemeinsamen Grundgedanken des Allgemeinguts zurückzuführen ist.^[4]

Geschichte

Seit dem 6. Juni 2018 können auch deutsche Sätze eingesprochen und überprüft werden.^[5] Es existiert eine inoffizielle Android-App.^[6]

Seit 2021 unterstützen Nvidia, die Bill & Melinda Gates Foundation, die Deutsche Gesellschaft für Internationale Zusammenarbeit und das britische Foreign and Commonwealth Office das Projekt.^[7]^[8]^[9]

Statistik

Die englische Datenbank von Common Voice ist mittlerweile die größte frei zugängliche Sprachdatenbank.^[7] Der Digitalisierungsfortschritt in den meisten Sprachen ebbte nach kurzer Zeit ab, nur in wenigen Fällen kam eine kritische Masse zustande:^[10]

Weitere Informationen Sprache, h validiert 2019-12-10 (4.0) ...

Sprache	h validiert 2019-12-10 (4.0)	h validiert 2022-07-04 (10.0)	h validiert 2022-09-21 (11.0)	h validiert 2023-03-09 (13.0)	14.0	Organisator
Englisch	1118	2275	2319	2428	2484	/
Katalanisch	246	1390	1700	2014	2400	AINA^[11]
Kinyarwanda		2001	2001	2001	2001	Digital Umuganda^[12]
Belarussisch		1089	1159	1341	1511	?
Esperanto (keine Standardaussprache)		1872^[13]	1414	1431	1430	^[14]
Deutsch	483	1136	1157	1257	1290	/
Französisch	350	868	906	941	958	/
Kabylisch	263	553	564	565	565	Universität Tizi Ouzou etc.^[15]
Spanisch	168	411	413	482	503	/
Luganda		407	408	437	437	^[16]
Persisch	212	327	344	355	357
Suaheli		/	326	338	348	bezahlt von Mozilla^[17]
Italienisch	85	321	326	342	346
Baschkirisch		256	256	257	257	^[18]
Chinesisch		64	130	227	231
Tamil		224	225	229	229
Olyk-Mari		114	133	148	175	?

Schließen

Weblinks

Commons: Common Voice – Sammlung von Bildern, Videos und Audiodateien

Common Voice – Offizielle Website

Namensgebung

Geschichte

Statistik

Verwandte Projekte

Weblinks

Einzelnachweise

Related Articles