TelME: Lehrer-gesteuertes multimodales Fusionsnetzwerk für die Emotionserkennung in Konversationen

Emotionserkennung in Konversationen (ERC) spielt eine entscheidende Rolle bei der Erstellung von Dialogsystemen, die effektiv auf Benutzeranfragen reagieren können. Die Emotionen in einer Konversation können durch Darstellungen aus verschiedenen Modalitäten wie Audio, visuell und Text identifiziert werden. Aufgrund des geringen Beitrags nichtverbaler Modalitäten zur Emotionserkennung gilt multimodale ERC jedoch als eine herausfordernde Aufgabe. In dieser Arbeit schlagen wir das Teacher-leading Multimodal Fusion Netzwerk für ERC (TelME) vor. TelME integriert Kreuzmodalwissensverteilung, um Informationen von einem Sprachmodell, das als Lehrer fungiert, an die nichtverbalen Schüler zu übertragen und damit die Effizienz der schwachen Modalitäten zu optimieren. Anschließend kombinieren wir multimodale Merkmale mittels eines verschiebenden Fusionsansatzes, bei dem die Schülernetzwerke den Lehrer unterstützen. TelME erzielt Spitzenleistungen im MELD-Datensatz, einem mehrsprachigen Konversationsdatensatz für ERC. Abschließend demonstrieren wir die Effektivität unserer Komponenten durch zusätzliche Experimente.