HyperAIHyperAI
vor 16 Tagen

GA2MIF: Graph- und Aufmerksamkeitsbasierte zweistufige Multi-Source-Informationssynthese für die emotionale Erkennung in Gesprächen

Jiang Li, Xiaoping Wang, Guoqing Lv, Zhigang Zeng
GA2MIF: Graph- und Aufmerksamkeitsbasierte zweistufige Multi-Source-Informationssynthese für die emotionale Erkennung in Gesprächen
Abstract

Die multimodale Emotionserkennung in Gesprächen (Multimodal Emotion Recognition in Conversation, ERC) spielt eine maßgebliche Rolle im Bereich der Mensch-Computer-Interaktion und der dialogbasierten Robotik, da sie Maschinen befähigt, empathische Dienstleistungen anzubieten. In den letzten Jahren ist die Modellierung multimodaler Daten zu einem aufstrebenden Forschungsfeld geworden, das sich an der menschlichen Fähigkeit zur Integration mehrerer Sinneswahrnehmungen orientiert. Mehrere graphenbasierte Ansätze behaupten, intermodale Interaktionsinformationen erfassen zu können, doch die Heterogenität multimodaler Daten erschwert die Erreichung optimaler Lösungen. In dieser Arbeit stellen wir einen multimodalen Fusionsansatz namens Graph and Attention based Two-stage Multi-source Information Fusion (GA2MIF) für die Emotionsdetektion in Gesprächen vor. Unser vorgeschlagener Ansatz umgeht das Problem, heterogene Graphen als Eingabe für das Modell zu verwenden, und vermeidet gleichzeitig komplexe redundante Verbindungen bei der Graphenkonstruktion. GA2MIF setzt auf kontextuelle Modellierung und intermodale Modellierung durch die Nutzung von Multi-head Directed Graph ATtention-Netzwerken (MDGATs) beziehungsweise Multi-head Pairwise Cross-modal ATtention-Netzwerken (MPCATs). Umfangreiche Experimente auf zwei öffentlichen Datensätzen (nämlich IEMOCAP und MELD) zeigen, dass das vorgeschlagene GA2MIF in der Lage ist, sowohl langreichweitige kontextuelle Informationen innerhalb der Modalitäten als auch komplementäre intermodale Informationen effektiv zu erfassen und zudem bestehende State-of-the-Art (SOTA)-Modelle signifikant zu übertrifft.

GA2MIF: Graph- und Aufmerksamkeitsbasierte zweistufige Multi-Source-Informationssynthese für die emotionale Erkennung in Gesprächen | Neueste Forschungsarbeiten | HyperAI