HyperAIHyperAI
vor 11 Tagen

M2FNet: Multi-modal Fusion Network für die Emotionserkennung in Gesprächen

Vishal Chudasama, Purbayan Kar, Ashish Gudmalwar, Nirmesh Shah, Pankaj Wasnik, Naoyuki Onoe
M2FNet: Multi-modal Fusion Network für die Emotionserkennung in Gesprächen
Abstract

Die Erkennung von Emotionen in Gesprächen (Emotion Recognition in Conversations, ERC) ist entscheidend für die Entwicklung empathischer Mensch-Maschine-Interaktionen. In conversationalen Videos können Emotionen in mehreren Modalitäten auftreten, nämlich Audio, Video und Transkript. Aufgrund der inhärenten Eigenschaften dieser Modalitäten stellt die multimodale ERC jedoch stets eine herausfordernde Aufgabe dar. Die bisherigen ERC-Forschungsarbeiten konzentrieren sich hauptsächlich auf die Nutzung von Textinformationen in Diskussionen und vernachlässigen dabei die beiden anderen Modalitäten. Wir gehen davon aus, dass sich die Genauigkeit der Emotionserkennung durch den Einsatz eines multimodalen Ansatzes verbessern lässt. Daher schlagen wir in dieser Studie ein Multi-Modale-Fusions-Netzwerk (M2FNet) vor, das emotionsspezifische Merkmale aus den Modalitäten Visuell, Audio und Text extrahiert. Es verwendet eine auf mehreren Kopf-Attention basierende Fusionsmechanik, um emotionenreiche latente Darstellungen der Eingabedaten zu kombinieren. Wir stellen einen neuen Merkmalsextraktor vor, der latente Merkmale aus Audio- und Visualsequenzen extrahiert. Der vorgeschlagene Extraktor wird mit einer neuartigen adaptiven Margin-basierten Triplet-Loss-Funktion trainiert, um emotionsspezifische Merkmale aus Audio- und Visueldaten zu lernen. In der ERC-Branche erzielen die bestehenden Methoden auf einem Benchmark-Datensatz gute Ergebnisse, jedoch nicht auf anderen. Unsere Ergebnisse zeigen, dass die vorgeschlagene M2FNet-Architektur hinsichtlich des gewichteten Durchschnitts-F1-Scores sowohl auf den bekannten Datensätzen MELD als auch IEMOCAP alle anderen Ansätze übertrifft und eine neue State-of-the-Art-Leistung in der ERC etabliert.

M2FNet: Multi-modal Fusion Network für die Emotionserkennung in Gesprächen | Neueste Forschungsarbeiten | HyperAI