Command Palette
Search for a command to run...
Spracherkennung von Emotionen mit Multi-Task-Learning
Spracherkennung von Emotionen mit Multi-Task-Learning
Kenneth Liang Church Renjie Huang Jiahong Zheng Xingyu Yuan Cai
Zusammenfassung
Die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) klassifiziert Sprache in Emotionskategorien wie beispielsweise glücklich, wütend, traurig und neutral. In jüngster Zeit wurde tiefes Lernen auf die SER-Aufgabe angewendet. In diesem Artikel wird ein Multi-Task-Learning-(MTL-)Framework vorgeschlagen, das gleichzeitig Sprache-zu-Text-Erkennung und Emotionsklassifikation durchführt, basierend auf einem end-to-end tiefen neuronalen Modell auf Basis von wav2vec-2.0. Experimente am IEMOCAP-Benchmark zeigen, dass die vorgeschlagene Methode die derzeit beste Leistung bei der SER-Aufgabe erzielt. Zudem bestätigt eine Ablationsstudie die Wirksamkeit des vorgeschlagenen MTL-Frameworks.