Command Palette
Search for a command to run...
CNN+LSTM-Architektur für die Erkennung von Sprachemotionen mit Datenverstärkung
CNN+LSTM-Architektur für die Erkennung von Sprachemotionen mit Datenverstärkung
Caroline Etienne Guillaume Fidanza Andrei Petrovskii Laurence Devillers Benoît Schmauch
Zusammenfassung
In dieser Arbeit entwerfen wir ein neuronales Netzwerk zur Erkennung von Emotionen in der Sprache, wobei wir den IEMOCAP-Datensatz verwenden. Indem wir die neuesten Fortschritte in der Audioanalyse berücksichtigen, nutzen wir eine Architektur, die sowohl Faltungs- als auch rekurrente Schichten umfasst. Die Faltungs-Schichten dienen der Extraktion hochstufiger Merkmale aus rohen Spektrogrammen, während die rekurrenten Schichten dazu verwendet werden, langfristige Abhängigkeiten zu aggregieren. Wir untersuchen Techniken zur Datenverstärkung durch Variation der Stimmlänge (vocal track length perturbation), anpassungsfähige Optimierer auf Schichtbasis (layer-wise optimizer adjustment) und Batches-Normalisierung der rekurrenten Schichten und erzielen sehr wettbewerbsfähige Ergebnisse von 64,5 % für das gewichtete Genauigkeitsmaß und 61,7 % für das ungewichtete Genauigkeitsmaß bei vier Emotionen.