HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung der Spracherkennung von Emotionen durch differenzierbare Architektursuche

Thejan Rajapakshe Rajib Rana Sara Khalifa Berrak Sisman Björn Schuller

Zusammenfassung

Spracherkennung von Emotionen (Speech Emotion Recognition, SER) ist ein entscheidender Treiber für emotionsbewusste Kommunikation in der Mensch-Computer-Interaktion. In jüngster Zeit haben Fortschritte im Bereich des Deep Learning (DL) die Leistungsfähigkeit von SER-Modellen erheblich verbessert, indem sie eine erhöhte Modellkomplexität ermöglichten. Die Gestaltung optimaler DL-Architekturen erfordert jedoch vorherige Erfahrung und umfangreiche experimentelle Evaluierungen. Ermutigend zeigt sich, dass der Neural Architecture Search (NAS) einen vielversprechenden Ansatz bietet, um automatisch optimale DL-Modelle zu identifizieren. Insbesondere stellt die Differentiable Architecture Search (DARTS) eine effiziente Methode dar, um mithilfe von NAS optimierte Modelle zu finden. In diesem Artikel wird eine DARTS-optimierte gemeinsame Architektur aus CNN und LSTM vorgeschlagen, um die SER-Leistung zu steigern. Die Auswahl der Koppelung zwischen CNN und LSTM basiert auf der Literatur und zielt darauf ab, eine verbesserte Leistung zu erzielen. Während DARTS bereits zuvor auf Kombinationen aus CNN und LSTM angewendet wurde, führt unser Ansatz eine neuartige Mechanik ein, insbesondere bei der Auswahl der CNN-Operationen mittels DARTS. Im Gegensatz zu früheren Studien setzen wir keine Einschränkungen bezüglich der Reihenfolge der Schichten innerhalb der DARTS-Zelle für das CNN fest; stattdessen ermöglichen wir es DARTS, die optimale Schichtreihenfolge autonom zu bestimmen. Anhand von Experimenten mit den Datensätzen IEMOCAP und MSP-IMPROV zeigen wir, dass unsere vorgeschlagene Methode eine signifikant höhere SER-Accuracy erzielt als die manuelle Gestaltung der CNN-LSTM-Konfiguration. Zudem übertrifft sie die besten bisher berichteten SER-Ergebnisse, die mit DARTS auf CNN-LSTM-Kombinationen erzielt wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp