HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Empirische Interpretation der Sprachemotionswahrnehmung mit einem Aufmerksamkeitsbasierten Modell für die Spracherkennung von Emotionen

{Thomas Hain Speech Rosanna Milner Md AsifJalal}

Empirische Interpretation der Sprachemotionswahrnehmung mit einem Aufmerksamkeitsbasierten Modell für die Spracherkennung von Emotionen

Abstract

Die Erkennung von Stimmemotionen ist entscheidend für die Entwicklung emotionaler Intelligenz, da sie das Verständnis von Kontext und Bedeutung in gesprochener Sprache beeinflusst. Harmonisch strukturierte Vokal- und Konsonantklänge liefern indexikalische und linguistische Hinweise in gesprochener Information. Frühere Studien diskutierten, ob Vokalklänge aus psychologischer und linguistischer Sicht wichtiger für die Übertragung emotionalen Kontexts sind. Andere Forschungen behaupteten zudem, dass emotionale Informationen bereits in kleinen, überlappenden akustischen Hinweisen enthalten sein können. Diese Annahmen werden jedoch in bisherigen computergestützten Systemen zur Erkennung von Stimmemotionen nicht bestätigt. In dieser Arbeit werden ein konvolutionales Modell und ein auf Long-Short-Term-Memory (LSTM)-Architekturen basierendes Modell, beide mit Aufmerksamkeitsmechanismus, eingesetzt, um diese Theorien im Kontext computergestützter Modelle zu untersuchen. Die Rolle akustischen Kontexts und der Bedeutung einzelner Wörter für die Aufgabe der Stimmemotionserkennung wird aufgezeigt. Das IEMOCAP-Korpus wird von den vorgeschlagenen Modellen evaluiert, wobei eine ungewichtete Genauigkeit von 80,1 % auf rein akustischen Daten erreicht wird – dies übertrifft die derzeitigen state-of-the-art-Modelle für diese Aufgabe. Die Zuordnung von Phones und Wörtern zu den Aufmerksamkeitsvektoren zeigt, dass Vokalklänge wesentlicher für die Definition akustischer Emotionsmerkmale sind als Konsonanten. Zudem kann das Modell die Wörter basierend auf dem akustischen Kontext entsprechend gewichten.

Benchmarks

BenchmarkMethodikMetriken
speech-emotion-recognition-on-iemocapSYSCOMB: BLSTMATT with CSA (session5)
F1: -
UA: 0.740
WA: 0.805

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Empirische Interpretation der Sprachemotionswahrnehmung mit einem Aufmerksamkeitsbasierten Modell für die Spracherkennung von Emotionen | Forschungsarbeiten | HyperAI