HyperAIHyperAI

Command Palette

Search for a command to run...

Joyful: Joint Modality Fusion und Graph-Contrastive-Learning für die multimodale Emotionserkennung

Dongyuan Li Yusong Wang Kotaro Funakoshi Manabu Okumura

Zusammenfassung

Die multimodale Emotionserkennung zielt darauf ab, für jede Äußerung mehrerer Modalitäten Emotionen zu erkennen und hat aufgrund ihrer Anwendung in der Mensch-Maschine-Interaktion zunehmend an Aufmerksamkeit gewonnen. Aktuelle graphenbasierte Ansätze sind nicht in der Lage, gleichzeitig globale Kontextmerkmale und lokale, vielfältige einmodale Merkmale in einem Dialog präzise darzustellen. Zudem neigen sie mit steigender Anzahl von Graphenschichten leicht zu Überglättung (over-smoothing). In diesem Paper stellen wir eine Methode vor, die gemeinsame Modalfusion und graphenbasierte kontrastive Lernung für die multimodale Emotionserkennung integriert (Joyful), bei der Multimodalitätsschmelzung, kontrastives Lernen und Emotionserkennung gemeinsam optimiert werden. Konkret entwickeln wir zunächst einen neuen Mechanismus zur multimodalen Fusion, der eine tiefe Interaktion und Integration zwischen globalen Kontextmerkmalen und modalspezifischen Merkmalen ermöglicht. Anschließend führen wir einen graphenbasierten kontrastiven Lernrahmen mit inter- und intra-View-Kontrastverlusten ein, um unterscheidbarere Repräsentationen für Proben mit unterschiedlichen Stimmungen zu erlernen. Umfassende Experimente auf drei Benchmark-Datensätzen zeigen, dass Joyful gegenüber allen Baselines eine state-of-the-art (SOTA)-Leistung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp