HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Spracherkennung von Emotionen mit Multi-Task-Learning

{Kenneth Liang Church Renjie Huang Jiahong Zheng Xingyu Yuan Cai}

Abstract

Die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) klassifiziert Sprache in Emotionskategorien wie beispielsweise glücklich, wütend, traurig und neutral. In jüngster Zeit wurde tiefes Lernen auf die SER-Aufgabe angewendet. In diesem Artikel wird ein Multi-Task-Learning-(MTL-)Framework vorgeschlagen, das gleichzeitig Sprache-zu-Text-Erkennung und Emotionsklassifikation durchführt, basierend auf einem end-to-end tiefen neuronalen Modell auf Basis von wav2vec-2.0. Experimente am IEMOCAP-Benchmark zeigen, dass die vorgeschlagene Methode die derzeit beste Leistung bei der SER-Aufgabe erzielt. Zudem bestätigt eine Ablationsstudie die Wirksamkeit des vorgeschlagenen MTL-Frameworks.

Benchmarks

BenchmarkMethodikMetriken
speech-emotion-recognition-on-iemocapSER with MTL
F1: -
UA CV: 0.7815

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Spracherkennung von Emotionen mit Multi-Task-Learning | Forschungsarbeiten | HyperAI