HyperAIHyperAI
vor 11 Tagen

Spracherkennung von Emotionen mit Multi-Task-Learning

{Kenneth, Liang Church, Renjie Huang, Jiahong Zheng, Xingyu Yuan, Cai}
Abstract

Die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) klassifiziert Sprache in Emotionskategorien wie beispielsweise glücklich, wütend, traurig und neutral. In jüngster Zeit wurde tiefes Lernen auf die SER-Aufgabe angewendet. In diesem Artikel wird ein Multi-Task-Learning-(MTL-)Framework vorgeschlagen, das gleichzeitig Sprache-zu-Text-Erkennung und Emotionsklassifikation durchführt, basierend auf einem end-to-end tiefen neuronalen Modell auf Basis von wav2vec-2.0. Experimente am IEMOCAP-Benchmark zeigen, dass die vorgeschlagene Methode die derzeit beste Leistung bei der SER-Aufgabe erzielt. Zudem bestätigt eine Ablationsstudie die Wirksamkeit des vorgeschlagenen MTL-Frameworks.

Spracherkennung von Emotionen mit Multi-Task-Learning | Neueste Forschungsarbeiten | HyperAI