Common Voice
Crowdsourcing-Projekt zur Erstellung einer freien Datenbank zum Training für Spracherkennungs-Software
From Wikipedia, the free encyclopedia
Common Voice ist ein 2017[1] von Mozilla gestartetes Crowdsourcing-Projekt zur Sammlung von Sprachdaten, die aus der Aufnahme von vorgelesenen Sätzen oder Worten bestehen. Die Daten stammen aus vielen Sprachen und werden von Freiwilligen eingesprochen und überprüft.
| Common Voice | |
| „Maschinen beibringen, wie echte Menschen sprechen“ | |
| Sammlung von gesprochenen Sätzen für eine Spracherkennungs-Datenbank | |
| Sprachen | multilingual (Liste der Sprachen) |
|---|---|
| Betreiber | Mozilla Foundation |
| Registrierung | Optional |
| Online | seit 19. Juni 2017 |
| (aktualisiert 24. Nov. 2024) | |
| https://commonvoice.mozilla.org/ | |
Nach der Anmeldung auf dem Portal von Common Voice, das mit einem Ziel- und Belohnungssystem für die Teilnahme ausgestattet ist, werden entweder Beispielsätze aus der Wikipedia zum Lesen und Aufnehmen oder die Aufnahmen anderer Nutzer zur Verifizierung angeboten. Die gesamten Daten sind gemeinfrei („CC0“). Common Voice erschien als Antwort auf die Sprachassistenten der großen Unternehmen, wie Amazon Echo, Siri oder Google Assistant.[2][3]
Namensgebung
Der Name „Common Voice“ stammt aus dem Englischen und bedeutet übersetzt etwa „gemeinsame Stimme“. Mozilla hat den Namen in Anlehnung an Creative Commons gewählt, was auf den gemeinsamen Grundgedanken des Allgemeinguts zurückzuführen ist.[4]
Geschichte
Seit dem 6. Juni 2018 können auch deutsche Sätze eingesprochen und überprüft werden.[5] Es existiert eine inoffizielle Android-App.[6]
Seit 2021 unterstützen Nvidia, die Bill & Melinda Gates Foundation, die Deutsche Gesellschaft für Internationale Zusammenarbeit und das britische Foreign and Commonwealth Office das Projekt.[7][8][9]
Statistik
Die englische Datenbank von Common Voice ist mittlerweile die größte frei zugängliche Sprachdatenbank.[7] Der Digitalisierungsfortschritt in den meisten Sprachen ebbte nach kurzer Zeit ab, nur in wenigen Fällen kam eine kritische Masse zustande:[10]
| Sprache | h validiert 2019-12-10 (4.0) | h validiert 2022-07-04 (10.0) | h validiert 2022-09-21 (11.0) | h validiert 2023-03-09 (13.0) |
14.0 | Organisator |
|---|---|---|---|---|---|---|
| Englisch | 1118 | 2275 | 2319 | 2428 | 2484 | / |
| Katalanisch | 246 | 1390 | 1700 | 2014 | 2400 | AINA[11] |
| Kinyarwanda | 2001 | 2001 | 2001 | 2001 | Digital Umuganda[12] | |
| Belarussisch | 1089 | 1159 | 1341 | 1511 | ? | |
| Esperanto (keine Standardaussprache) | 1872[13] | 1414 | 1431 | 1430 | [14] | |
| Deutsch | 483 | 1136 | 1157 | 1257 | 1290 | / |
| Französisch | 350 | 868 | 906 | 941 | 958 | / |
| Kabylisch | 263 | 553 | 564 | 565 | 565 | Universität Tizi Ouzou etc.[15] |
| Spanisch | 168 | 411 | 413 | 482 | 503 | / |
| Luganda | 407 | 408 | 437 | 437 | [16] | |
| Persisch | 212 | 327 | 344 | 355 | 357 | |
| Suaheli | / | 326 | 338 | 348 | bezahlt von Mozilla[17] | |
| Italienisch | 85 | 321 | 326 | 342 | 346 | |
| Baschkirisch | 256 | 256 | 257 | 257 | [18] | |
| Chinesisch | 64 | 130 | 227 | 231 | ||
| Tamil | 224 | 225 | 229 | 229 | ||
| Olyk-Mari | 114 | 133 | 148 | 175 | ? |
Verwandte Projekte
- LibriSpeech: Sprachkorpus von ungefähr 1000 Stunden englischsprachiger Hörbücher aus LibriVox (CC BY 4.0).
- TED-LIUM: Sprachkorpus von ungefähr 118 Stunden aus englischsprachigen TED-Talks (CC BY-NC-ND 3.0).
- Tatoeba: Sammlung von (gesprochenen) Beispielsätzen in verschiedenen Sprachen mit Übersetzungen (Texte CC BY 2.0, Audio größtenteils CC BY-NC-ND 3.0).
- VoxForge: Sprachkorpus in verschiedenen Sprachen, um freie Spracherkennungs-Engines, wie Julius zu unterstützen (GPL 3).
- Thorsten (Stimme) deutscher Sprachkorpus einer Person für TTS-Sprachmodelle (CC0-Lizenz)
Weblinks
- Common Voice – Offizielle Website
