HyperAIHyperAI
vor 11 Tagen

emoDARTS: Gemeinsame Optimierung von CNN- und sequenziellen neuronalen Netzwerkarchitekturen für eine überlegene Spracherkennung von Emotionen

Thejan Rajapakshe, Rajib Rana, Sara Khalifa, Berrak Sisman, Bjorn W. Schuller, Carlos Busso
emoDARTS: Gemeinsame Optimierung von CNN- und sequenziellen neuronalen Netzwerkarchitekturen für eine überlegene Spracherkennung von Emotionen
Abstract

Die Erkennung von Stimmemotionen (Speech Emotion Recognition, SER) ist entscheidend dafür, dass Computer die in der menschlichen Kommunikation vermittelten Emotionen verstehen können. Durch die jüngsten Fortschritte im Bereich des Deep Learning (DL) hat sich die Leistungsfähigkeit von SER-Modellen erheblich verbessert. Die Gestaltung einer optimalen DL-Architektur erfordert jedoch spezialisiertes Wissen und umfangreiche experimentelle Bewertungen. Glücklicherweise bietet das Neural Architecture Search (NAS) eine vielversprechende Lösung zur automatischen Bestimmung der besten DL-Modelle. Insbesondere die Differentiable Architecture Search (DARTS) ist eine äußerst effiziente Methode zur Entdeckung optimaler Architekturen. In dieser Studie präsentieren wir emoDARTS, eine DARTS-optimierte gemeinsame Architektur aus Convolutional Neural Network (CNN) und sequenziellen neuronalen Netzwerken (SeqNN: LSTM, RNN), die die SER-Leistung verbessert. Die wissenschaftliche Literatur stützt die Kombination von CNN und LSTM zur Steigerung der Leistungsfähigkeit.Während DARTS bisher dazu verwendet wurde, CNN- und LSTM-Operationen unabhängig voneinander auszuwählen, integriert unsere Methode ein neuartiges Verfahren zur gleichzeitigen Auswahl von CNN- und SeqNN-Operationen mittels DARTS. Im Gegensatz zu früheren Ansätzen legen wir keine Einschränkungen bezüglich der Reihenfolge der Schichten im CNN fest. Stattdessen überlassen wir es DARTS, die optimale Schichtreihenfolge innerhalb der DARTS-Zelle selbst zu bestimmen. Wir zeigen, dass emoDARTS conventional entworfene CNN-LSTM-Modelle übertrifft und die besten bisher berichteten SER-Ergebnisse, die mit DARTS auf CNN-LSTM erreicht wurden, bei der Bewertung unserer Methode an den Datensätzen IEMOCAP, MSP-IMPROV und MSP-Podcast übertreffen.

emoDARTS: Gemeinsame Optimierung von CNN- und sequenziellen neuronalen Netzwerkarchitekturen für eine überlegene Spracherkennung von Emotionen | Neueste Forschungsarbeiten | HyperAI