Empirische Interpretation der Sprachemotionswahrnehmung mit einem Aufmerksamkeitsbasierten Modell für die Spracherkennung von Emotionen

Die Erkennung von Stimmemotionen ist entscheidend für die Entwicklung emotionaler Intelligenz, da sie das Verständnis von Kontext und Bedeutung in gesprochener Sprache beeinflusst. Harmonisch strukturierte Vokal- und Konsonantklänge liefern indexikalische und linguistische Hinweise in gesprochener Information. Frühere Studien diskutierten, ob Vokalklänge aus psychologischer und linguistischer Sicht wichtiger für die Übertragung emotionalen Kontexts sind. Andere Forschungen behaupteten zudem, dass emotionale Informationen bereits in kleinen, überlappenden akustischen Hinweisen enthalten sein können. Diese Annahmen werden jedoch in bisherigen computergestützten Systemen zur Erkennung von Stimmemotionen nicht bestätigt. In dieser Arbeit werden ein konvolutionales Modell und ein auf Long-Short-Term-Memory (LSTM)-Architekturen basierendes Modell, beide mit Aufmerksamkeitsmechanismus, eingesetzt, um diese Theorien im Kontext computergestützter Modelle zu untersuchen. Die Rolle akustischen Kontexts und der Bedeutung einzelner Wörter für die Aufgabe der Stimmemotionserkennung wird aufgezeigt. Das IEMOCAP-Korpus wird von den vorgeschlagenen Modellen evaluiert, wobei eine ungewichtete Genauigkeit von 80,1 % auf rein akustischen Daten erreicht wird – dies übertrifft die derzeitigen state-of-the-art-Modelle für diese Aufgabe. Die Zuordnung von Phones und Wörtern zu den Aufmerksamkeitsvektoren zeigt, dass Vokalklänge wesentlicher für die Definition akustischer Emotionsmerkmale sind als Konsonanten. Zudem kann das Modell die Wörter basierend auf dem akustischen Kontext entsprechend gewichten.