EmoDB

From Wikipedia, the free encyclopedia

EmoDB (abréviation de Berlin Database of Emotional Speech) est une base de données audio créée en 2005 par des chercheurs de l'université technique de Berlin. Les données d'EmoDB sont destinées à l'étude et à l'entraînement des systèmes de reconnaissance des émotions dans la parole. Elle est largement utilisée dans le domaine de l'informatique affective et de la reconnaissance vocale. C'est l'équivalent « audio » de la base de données AffectNet qui est, elle, la base de données d'images présentant des émotions sur des visages, complémentaire de la première pour entraîner des intelligences artificielles à reconnaître des émotions à partir de l'image, de la vidéo et de la parole.

La base a été développée entre 1997 et 1999 dans le cadre d'un projet de recherche[1] dirigé par Walter F. Sendlmeier, linguiste et chercheur allemand spécialisé dans dans l’étude de la voix, de la parole et de leurs effets perceptifs et émotionnels, au sein des sciences de la communication et ayant longtemps dirigé le Fachgebiet Kommunikationswissenschaft (Département de sciences de la communication de la Technische Universität Berlin). Il a créé cette base avec Felix Burkhardt, Astrid Paeschke, Miriam Rolfes et Benjamin Weiss[1].

Leur projet[1] visait à permettre d'analyser les caractéristiques sonores et phonétiques de la parole émotionnelle, ici simulée par des comédiens professionnels[2].

Contenu

EmoDB contient[3] :

  • 535 enregistrements audio en allemand, produits par 10 comédiens (5 hommes, 5 femmes) ;
  • 7 émotions simulées : colère, peur, joie, tristesse, dégoût, ennui, et neutralité ;
  • des phrases standardisées issues de la communication quotidienne ;
  • des fichiers d'annotation phonétique et syllabique.

Les fichiers audio sont au format WAV (16 kHz, 16 bits, mono), accompagnés de métadonnées précises sur les émotions et les locuteurs.

Applications

EmoDB a été utilisée dans :

  • la reconnaissance automatique des émotions dans la parole ;
  • l'analyse phonétique des émotions simulées ; elle a par exemple permis d'isoler des expressions phonétiques spécifiques aux émotions sur la base d'analyses phonétiques des phénomènes d'épenthèse, d'élision de segments de mots ou de phrases, de changement dans la durée des voyelles et des consonnes, d'extension temporelle de certaines phrases, la structure de l'accent, l'isochronie, la sonorisation, l'assimilation progressive de l'absence de voix et la position des formants. Les phénomènes de réduction et d'élaboration identifiés seront classés en phonétique de l'allemand en référence au mécanisme de génération et aux corrélats acoustiques qui en résultent[4] ;
  • l'entraînement de modèles de deep learning pour la classification vocale ;
  • la synthèse vocale émotionnelle.

Conditions d'utilisation

La base est disponible gratuitement pour un usage académique et non commercial. Elle est publiée sous licence CC0-1.0 et peut être téléchargée via la bibliothèque Python audb[5].

Devenir

Notes et références

Voir aussi

Related Articles

Wikiwand AI