HyperAIHyperAI
vor 11 Tagen

Verbesserung der Spracherkennung von Emotionen durch differenzierbare Architektursuche

Thejan Rajapakshe, Rajib Rana, Sara Khalifa, Berrak Sisman, Björn Schuller
Verbesserung der Spracherkennung von Emotionen durch differenzierbare Architektursuche
Abstract

Spracherkennung von Emotionen (Speech Emotion Recognition, SER) ist ein entscheidender Treiber für emotionsbewusste Kommunikation in der Mensch-Computer-Interaktion. In jüngster Zeit haben Fortschritte im Bereich des Deep Learning (DL) die Leistungsfähigkeit von SER-Modellen erheblich verbessert, indem sie eine erhöhte Modellkomplexität ermöglichten. Die Gestaltung optimaler DL-Architekturen erfordert jedoch vorherige Erfahrung und umfangreiche experimentelle Evaluierungen. Ermutigend zeigt sich, dass der Neural Architecture Search (NAS) einen vielversprechenden Ansatz bietet, um automatisch optimale DL-Modelle zu identifizieren. Insbesondere stellt die Differentiable Architecture Search (DARTS) eine effiziente Methode dar, um mithilfe von NAS optimierte Modelle zu finden. In diesem Artikel wird eine DARTS-optimierte gemeinsame Architektur aus CNN und LSTM vorgeschlagen, um die SER-Leistung zu steigern. Die Auswahl der Koppelung zwischen CNN und LSTM basiert auf der Literatur und zielt darauf ab, eine verbesserte Leistung zu erzielen. Während DARTS bereits zuvor auf Kombinationen aus CNN und LSTM angewendet wurde, führt unser Ansatz eine neuartige Mechanik ein, insbesondere bei der Auswahl der CNN-Operationen mittels DARTS. Im Gegensatz zu früheren Studien setzen wir keine Einschränkungen bezüglich der Reihenfolge der Schichten innerhalb der DARTS-Zelle für das CNN fest; stattdessen ermöglichen wir es DARTS, die optimale Schichtreihenfolge autonom zu bestimmen. Anhand von Experimenten mit den Datensätzen IEMOCAP und MSP-IMPROV zeigen wir, dass unsere vorgeschlagene Methode eine signifikant höhere SER-Accuracy erzielt als die manuelle Gestaltung der CNN-LSTM-Konfiguration. Zudem übertrifft sie die besten bisher berichteten SER-Ergebnisse, die mit DARTS auf CNN-LSTM-Kombinationen erzielt wurden.

Verbesserung der Spracherkennung von Emotionen durch differenzierbare Architektursuche | Neueste Forschungsarbeiten | HyperAI