HyperAIHyperAI

Command Palette

Search for a command to run...

CNN+LSTM-Architektur für die Erkennung von Sprachemotionen mit Datenverstärkung

Caroline Etienne Guillaume Fidanza Andrei Petrovskii Laurence Devillers Benoît Schmauch

Zusammenfassung

In dieser Arbeit entwerfen wir ein neuronales Netzwerk zur Erkennung von Emotionen in der Sprache, wobei wir den IEMOCAP-Datensatz verwenden. Indem wir die neuesten Fortschritte in der Audioanalyse berücksichtigen, nutzen wir eine Architektur, die sowohl Faltungs- als auch rekurrente Schichten umfasst. Die Faltungs-Schichten dienen der Extraktion hochstufiger Merkmale aus rohen Spektrogrammen, während die rekurrenten Schichten dazu verwendet werden, langfristige Abhängigkeiten zu aggregieren. Wir untersuchen Techniken zur Datenverstärkung durch Variation der Stimmlänge (vocal track length perturbation), anpassungsfähige Optimierer auf Schichtbasis (layer-wise optimizer adjustment) und Batches-Normalisierung der rekurrenten Schichten und erzielen sehr wettbewerbsfähige Ergebnisse von 64,5 % für das gewichtete Genauigkeitsmaß und 61,7 % für das ungewichtete Genauigkeitsmaß bei vier Emotionen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CNN+LSTM-Architektur für die Erkennung von Sprachemotionen mit Datenverstärkung | Paper | HyperAI