HyperAIHyperAI

Command Palette

Search for a command to run...

Effizientes langdistanz-basiertes Graph-Neuronales Netzwerk mit latenter Relationserkennung für die mehrmodalen Emotionserkennung in Konversationen

Yuntao Shou Wei Ai Jiayi Du Tao Meng* Haiyan Liu Nan Yin

Zusammenfassung

Die Aufgabe der multimodalen Emotionserkennung in Konversationen (MERC) besteht darin, den echten emotionalen Zustand jeder Äußerung basierend auf multimodaler Information in der Konversation zu analysieren, was für das Verständnis von Konversationen entscheidend ist. Bestehende Methoden konzentrieren sich darauf, Graph-Neuronale Netze (GNN) zu verwenden, um konversationsbezogene Beziehungen zu modellieren und kontextuelle latente semantische Beziehungen zu erfassen. Allerdings können bestehende Methoden aufgrund der Komplexität von GNN die potentiellen Abhängigkeiten zwischen weit entfernten Äußerungen nicht effizient erfassen, was die Leistungsfähigkeit von MERC einschränkt. In diesem Artikel schlagen wir ein effizientes langdistanz-latentes Beziehungsbewusstes Graph-Neurales Netzwerk (ELR-GNN) für die multimodale Emotionserkennung in Konversationen vor. Speziell verwenden wir zunächst vorgewählte Text-, Video- und Audio-Features als Eingabe für Bi-LSTM, um kontextuelle semantische Informationen zu erfassen und niedrigstufige Äußerungsfeatures zu erhalten. Anschließend bauen wir mit diesen niedrigstufigen Äußerungsfeatures einen konversationsbezogenen Emotionsinteraktionsgraphen auf. Um die potentiellen Abhängigkeiten zwischen weit entfernten Äußerungen effizient zu erfassen, verwenden wir den dilatierten verallgemeinerten Vorwärts-Push-Algorithmus, um die emotionale Ausbreitung zwischen globalen Äußerungen vorzuberechnen, und entwickeln einen emotionsbeziehungsbewussten Operator, um die potentiellen semantischen Assoziationen zwischen verschiedenen Äußerungen zu erfassen. Darüber hinaus kombinieren wir Mechanismen der frühen Fusion und der adaptiven späten Fusion, um latente Abhängigkeitsinformationen zwischen Sprecherverhaltensinformation und Kontext zusammenzuführen. Schließlich erhalten wir hochstufige Diskursfeatures und geben sie an ein MLP zur Emotionsvorhersage weiter. Umfangreiche experimentelle Ergebnisse zeigen, dass ELR-GNN auf den Benchmark-Datensätzen IEMOCAP und MELD eine Stand-of-the-Art-Leistung erzielt und dabei die Laufzeiten um 52 % und 35 % reduziert werden können.注:在德语中,“多模态”通常翻译为“multimodal”,“基准数据集”翻译为“Benchmark-Datensatz”。其他术语如“Bi-LSTM”、“MLP”等在德语中也常用英文表示。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp