HyperAIHyperAI
vor 18 Tagen

Spracherkennung von Emotionen basierend auf der Korrektur von Selbst-Attention-Gewichten für akustische und textuelle Merkmale

{Shoji Makino, Taiichi Hashimoto, Kenkichi Ishizuka, Takeshi Yamada, JENNIFER SANTOSO}
Abstract

Die Erkennung von Stimmemotionen (Speech Emotion Recognition, SER) ist entscheidend für das Verständnis der Absicht eines Sprechers. In jüngster Zeit haben mehrere Forschungsgruppen versucht, die Leistungsfähigkeit der SER durch den Einsatz eines bidirektionalen Langkurzzeitgedächtnisnetzwerks (Bidirectional Long Short-Term Memory, BLSTM) zur Merkmalsextraktion aus Sprachsequenzen sowie einer Selbst-Attention-Mechanismus zur Fokussierung auf relevante Abschnitte der Sprachsequenzen zu verbessern. Die SER-Bewertung profitiert zudem von der Kombination akustischer und textueller Informationen, die mittels eines automatischen Spracherkennungssystems (Automatic Speech Recognition, ASR) automatisch erreicht werden kann und die Leistung weiter steigert. Allerdings verschlechtert sich die ASR-Leistung bei emotionaler Sprache. Obwohl es bereits Methoden gibt, die die ASR-Leistung bei emotionaler Sprache verbessern, erfordern diese eine Feinabstimmung (fine-tuning) des ASR-Modells, was mit hohen Rechenkosten verbunden ist und zudem wichtige Hinweise auf die Anwesenheit von Emotionen in Sprachsegmenten verloren gehen lässt, die für die SER von Nutzen wären. Um diese Probleme zu lösen, schlagen wir eine BLSTM- und Selbst-Attention-basierte SER-Methode mit Korrektur der Selbst-Attention-Gewichte (Self-Attention Weight Correction, SAWC) unter Verwendung von Vertrauensmaßen vor. Diese Methode wird sowohl auf Akustik- als auch auf Textmerkmalextraktoren in der SER angewendet, um die Gewichtung von Sprachsegmenten und Wörtern mit hoher Wahrscheinlichkeit für ASR-Fehler anzupassen. Unser vorgeschlagener SAWC verringert die Bedeutung von Wörtern mit Spracherkennungsfehlern in den Textmerkmalen, während er gleichzeitig die Relevanz von Sprachsegmenten, die solche Wörter enthalten, in den akustischen Merkmalen erhöht. Experimentelle Ergebnisse auf dem Interactive Emotional Dyadic Motion Capture (IEMOCAP)-Datensatz zeigen, dass unsere Methode eine gewichtete Durchschnittsgenauigkeit von 76,6 % erreicht und damit andere state-of-the-art-Methoden übertrifft. Darüber hinaus haben wir das Verhalten unseres vorgeschlagenen SAWC in jedem der Merkmalextraktoren untersucht.