Spracherkennung von Emotionen mit Multi-Task-Learning
{Kenneth Liang Church Renjie Huang Jiahong Zheng Xingyu Yuan Cai}
Abstract
Die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) klassifiziert Sprache in Emotionskategorien wie beispielsweise glücklich, wütend, traurig und neutral. In jüngster Zeit wurde tiefes Lernen auf die SER-Aufgabe angewendet. In diesem Artikel wird ein Multi-Task-Learning-(MTL-)Framework vorgeschlagen, das gleichzeitig Sprache-zu-Text-Erkennung und Emotionsklassifikation durchführt, basierend auf einem end-to-end tiefen neuronalen Modell auf Basis von wav2vec-2.0. Experimente am IEMOCAP-Benchmark zeigen, dass die vorgeschlagene Methode die derzeit beste Leistung bei der SER-Aufgabe erzielt. Zudem bestätigt eine Ablationsstudie die Wirksamkeit des vorgeschlagenen MTL-Frameworks.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| speech-emotion-recognition-on-iemocap | SER with MTL | F1: - UA CV: 0.7815 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.