Thorsten-Voice

Thorsten-Voice ist ein Open Source Projekt zur Bereitstellung einer kostenlosen, natürlich klingenden, deutschen KI-Stimme für die Sprachsynthese (auch TTS oder Text-to-Speech genannt), die ohne Cloud- oder Internetzugang funktioniert. Es wurde im Oktober 2019 von Thorsten Müller und Dominik Kreutz initiiert.

Schnelle Fakten Basisdaten ...

Thorsten-Voice

Basisdaten
Hauptentwickler	Thorsten Müller
Erscheinungsjahr	2019
Kategorie	Sprachsynthese
deutschsprachig	ja
thorsten-voice.de

Schließen

Sprecher Thorsten Müller

Sämtliche durch das Projekt bereitgestellte KI-Stimmen basieren auf Sprachaufnahmen von Thorsten Müller. Diese Aufnahmen sind ebenfalls als Open Source (CC0 Lizenz) frei verfügbar. Auf der Webseite des Projektes beschreibt Sprecher Thorsten Müller seine persönlichen Motive.

Für ihn sind alle Menschen gleich, unabhängig von Geschlecht, sexueller Orientierung, Religion, Hautfarbe oder Geokoordinaten der Geburt. Er glaubt an eine globale Welt, wo jeder überall willkommen ist und freies Wissen und Bildung kostenfrei für jeden zur Verfügung steht. Er hat seine Stimme der Allgemeinheit gespendet, in der Hoffnung darauf, dass sie in diesem Sinne genutzt wird.^[1]

Sprachdatensätze

Die notwendigen Aufnahmen als Trainingsdaten für die KI-Stimmen stehen in unterschiedlichen Sprachdatensätzen zur Verfügung. Diese bestehen aus Mono Audioaufnahmen im Wave Format sowie einer zugehörigen Textdatei mit der passenden Textzugehörigkeit. Das Projekt stellt über 30.000 Aufnahmen unter CC0 Lizenz zur freien Verfügung. Sie können über das OpenSLR Spracharchiv, die von der Europäischen Union finanzierten wissenschaftlichen Plattform Zenodo oder Hugging Face unter eindeutigen DOI frei heruntergeladen werden.

Der im Jahr 2020 veröffentlichte Thorsten-Voice Dataset 2021.02 Sprachdatensatz besteht aus 22.000 neutral betonten Aufnahmen mit einer gesamten Dauer von 23 Stunden. Die durchschnittliche Satzlänge beträgt 52 Zeichen und es wurde mit einer Geschwindigkeit von 14 Zeichen pro Sekunde eingesprochen.^[2]

Der ebenfalls neutral eingesprochene und im Oktober 2022 veröffentlichte Sprachdatensatz Thorsten-Voice Dataset 2022.10 beinhaltet 12.000 Aufnahmen. Dies entspricht einer Dauer von 11 Stunden. Mit einer durchschnittlichen Sprechgeschwindigkeit von 17 Zeichen pro Sekunde ist es etwas natürlicher und schneller in der Aussprache als der Sprachdatensatz 2021.02.^[3]

Im Juni 2021 veröffentlichte das Projekt den Thorsten-Voice Dataset 2021.06 Emotional Sprachdatensatz der in verschiedenen Emotionen eingesprochen wurde. Dazu zählen Betonungen in den Emotionen angeekelt, wütend, erfreut, schläfrig, überrascht, betrunken sowie flüsternd. Er beinhaltet 300 unterschiedliche Sätze die jeweils in den genannten Emotionen aufgenommen wurden.^[4]

In Anlehnung an die Herkunft des Sprechers im Wetteraukreis bei Frankfurt am Main veröffentlichte das Projekt im September 2023 den Thorsten-Voice Dataset 2023.09 Hessisch Sprachdatensatz in südhessischem Dialekt. Es ermöglicht somit auf KI-Stimmen zu erstellen, welche die hessische Aussprache mittels künstlicher Intelligenz erzeugen können. Es umfasst 2.000 Audio-Aufnahmen.^[5]

Im März 2026 wurden alle Sprachdatensätze mit insgesamt über 40 Stunden Audio-Aufnahmen auch in das Mozilla Data Collective aufgenommen.^[6]^[7]

KI-Stimmen

Auf Basis der oben genannten Sprachdatensätze hat das Projekt mittels KI und maschinellem Lernen künstliche Stimmen erzeugt. Diese ermöglichen eine qualitativ hochwertige künstliche Sprachsynthese (auch TTS oder Text-to-Speech genannt), die ohne Internetzugriff funktioniert. Da die Sprachsynthese ohne Cloud Dienste läuft fallen möglicherweise Datenschutzbedenken sowie exklusive Anbieter Abhängigkeiten weg. Die Thorsten-Voice KI-Stimmen stehen unter freigiebigen Open Source Lizenzen und bieten eine kostenfreie Nutzung.

Die KI-Stimmen stehen in neutraler, emotionaler und hessischer Betonung zur Verfügung. Neben der Installation auf dem eigenen Computer können die Thorsten-Voice Stimmen auch auf der Plattform Huggingface frei verwendet werden.^[8]

Einsatz in Wissenschaft und Forschung

Aufgrund der freigiebigen CC0 Lizenz werden die Thorsten-Voice Sprachdatensätze auch in Wissenschaft und Forschung verwendet. Dazu zählen auszugsweise folgende Institutionen und wissenschaftliche Abhandlungen.

Hochschule Hof (2021), "Sprachsynthese State-of-the-Art in englischer und deutscher Sprache".^[9]
Universität Stuttgart (2022), "Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech".^[10]
Fraunhofer Institut AISEC (2024), "MLAAD: The Multi-Language Audio Anti Spoofing Dataset".^[11]
Virginia Commonwealth University, "In-domain and Out-of-domain benchmarking for speech emotion recognition".^[12]
Goethe Universität Frankfurt (2025), "A Hypertext System for the Collaborative Interaction in Parliamentary Debate Spaces".^[13]

Eine vollständige Übersicht aller über 30 wissenschaftlichen Verwendungen von Thorsten-Voice findet sich auf der Projektwebseite sowie über die Suche auf Google Scholar.^[14]^[15]

Medien

Über Thorsten-Voice wurde unter anderem in folgenden Print- und Onlinemedien sowie Podcasts berichtet. Die Berichte beziehen sich teilweise auf die Einsatzmöglichkeiten der KI-Stimmen, sowie die gesellschaftlichen und sozialen Auswirkungen, wenn man freiwillig seine Stimme verschenkt.

t3n (2023), "Hör mal, wer da spricht".^[16]
Deutschlandfunk Podcast (2024), "KI verstehen - Open Source Modelle demokratisieren Künstliche Intelligenz".^[17]
Golem Podcast und Online (2024/2025), "Wie man seine Stimme klont" und "Zum KI-Training in die Cloud gehen?"^[18]^[19]
Frankfurter Rundschau (2025), "Seine Stimme gehört jetzt allen".^[20]
Netzpolitik.org (2025), "Dieser Mann hat seine Stimme verschenkt".^[21]
DER SPIEGEL (2025), "Der Mann, der seine Stimme verschenkte".^[22]

Die Webseite des Projektes enthält eine vollständige Liste der medialen Berichterstattung.^[23] In der Ausgabe der heute-show vom 31. Oktober 2025 wurde ein Roboter der TU Darmstadt gezeigt, der die hessische Variante von Thorsten-Voice verwendet.^[24] Der verkürzt gezeigte Ausschnitt stammt aus der 3sat Nano Doku vom 24. August 2025 mit dem Titel "Wie humanoide Roboter im Alltag helfen"^[25].

Weitere Einsatzmöglichkeiten

Künstliche Stimmen sind in Zeiten steigender Mensch-zu-Maschine Interaktion aus dem Alltag kaum noch wegzudenken. Einige Aspekte sind sprachgesteuerte intelligente Sprachassistenten, der Austausch mit LLM basierten Chatbots und die Sprachsteuerung eines intelligenten Zuhause.

Der Aspekt der Barrierefreiheit ist ebenfalls wesentlich, da künstliche Sprachausgabe Menschen mit Einschränkungen beim Sehen oder Lesen eine digitale Teilhabe ermöglicht. Ebenso Menschen, die durch Krankheit oder Unfall die eigene Stimme verloren haben, bietet künstliche Sprachsynthese wesentliche Vorteile.

Seit 2023 ist Thorsten-Voice in den NeMo Werkzeugkasten von Nvidia integriert,^[26] die Sprachausgabe der Schweizer Lernstick Linux Distribution^[27] sowie Teil der Sprachausgabe der Smarthome Anwendung Home Assistant.

Sprecher Thorsten Müller

Sprachdatensätze

KI-Stimmen

Einsatz in Wissenschaft und Forschung

Medien

Weitere Einsatzmöglichkeiten

Weblinks

Einzelnachweise

Related Articles

Related Articles

Thorsten-Voice Dataset 2021.02.

Thorsten-Voice Dataset 2022.10.

Thorsten-Voice Dataset 2021.06 emotional.

Thorsten-Voice Dataset 2023.09 Hessisch.