Ein auf Transformer basierender gemeinsamer Encoder für Emotionserkennung und Sentimentanalyse

Die Erfassung ausgedrückter Stimmungen und Emotionen sind zwei entscheidende Faktoren in der multimodalen Sprache des Menschen. In diesem Paper wird ein Transformer-basierter Joint-Encoding-Ansatz (TBJE) für die Aufgabe der Emotionserkennung und Sentimentanalyse vorgestellt. Neben der Nutzung der Transformer-Architektur stützt sich unser Ansatz auf ein modulares Co-Attention-Modul sowie eine Glimpse-Schicht, um eine oder mehrere Modalitäten gemeinsam zu kodieren. Die vorgeschlagene Lösung wurde zudem im Rahmen der ACL20: Second Grand-Challenge on Multimodal Language eingereicht und wird anhand des CMU-MOSEI-Datensatzes evaluiert. Der Quellcode zur Nachvollziehbarkeit der präsentierten Experimente ist öffentlich zugänglich: https://github.com/jbdel/MOSEI_UMONS.