vor 17 Tagen
Modulierte Fusion mittels Transformer für sprach-akustische Emotionserkennung
Jean-Benoit Delbrouck, Noé Tits, Stéphane Dupont

Abstract
Diese Arbeit zielt darauf ab, eine neue, leichtgewichtige jedoch leistungsstarke Lösung für die Aufgabe der Emotionserkennung und Sentimentanalyse vorzustellen. Unsere Motivation besteht darin, zwei Architekturen basierend auf Transformers und Modulation zu entwickeln, die sprachliche und akustische Eingaben aus einer Vielzahl unterschiedlicher Datensätze kombinieren, um die derzeitigen State-of-the-Art-Methoden herauszufordern und gelegentlich sogar zu übertreffen. Um die Effizienz unserer Modelle zu demonstrieren, evaluieren wir ihre Leistung sorgfältig auf den Datensätzen IEMOCAP, MOSI, MOSEI und MELD. Die Experimente sind direkt replizierbar, und der Quellcode ist vollständig offen für zukünftige Forschungsarbeiten.