HyperAIHyperAI

Command Palette

Search for a command to run...

M2FNet: Multi-modal Fusion Network für die Emotionserkennung in Gesprächen

Vishal Chudasama Purbayan Kar Ashish Gudmalwar Nirmesh Shah Pankaj Wasnik Naoyuki Onoe

Zusammenfassung

Die Erkennung von Emotionen in Gesprächen (Emotion Recognition in Conversations, ERC) ist entscheidend für die Entwicklung empathischer Mensch-Maschine-Interaktionen. In conversationalen Videos können Emotionen in mehreren Modalitäten auftreten, nämlich Audio, Video und Transkript. Aufgrund der inhärenten Eigenschaften dieser Modalitäten stellt die multimodale ERC jedoch stets eine herausfordernde Aufgabe dar. Die bisherigen ERC-Forschungsarbeiten konzentrieren sich hauptsächlich auf die Nutzung von Textinformationen in Diskussionen und vernachlässigen dabei die beiden anderen Modalitäten. Wir gehen davon aus, dass sich die Genauigkeit der Emotionserkennung durch den Einsatz eines multimodalen Ansatzes verbessern lässt. Daher schlagen wir in dieser Studie ein Multi-Modale-Fusions-Netzwerk (M2FNet) vor, das emotionsspezifische Merkmale aus den Modalitäten Visuell, Audio und Text extrahiert. Es verwendet eine auf mehreren Kopf-Attention basierende Fusionsmechanik, um emotionenreiche latente Darstellungen der Eingabedaten zu kombinieren. Wir stellen einen neuen Merkmalsextraktor vor, der latente Merkmale aus Audio- und Visualsequenzen extrahiert. Der vorgeschlagene Extraktor wird mit einer neuartigen adaptiven Margin-basierten Triplet-Loss-Funktion trainiert, um emotionsspezifische Merkmale aus Audio- und Visueldaten zu lernen. In der ERC-Branche erzielen die bestehenden Methoden auf einem Benchmark-Datensatz gute Ergebnisse, jedoch nicht auf anderen. Unsere Ergebnisse zeigen, dass die vorgeschlagene M2FNet-Architektur hinsichtlich des gewichteten Durchschnitts-F1-Scores sowohl auf den bekannten Datensätzen MELD als auch IEMOCAP alle anderen Ansätze übertrifft und eine neue State-of-the-Art-Leistung in der ERC etabliert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp