Spurensuche komplexer Hinweise im Dialog: Gemeinsame Graphenstruktur und Stimmungsdy namik für multimodale Emotionserkennung

Die multimodale Emotionserkennung in Konversationen (MERC) hat in letzter Zeit erhebliche Forschungsinteressen geweckt. Bestehende MERC-Methoden stehen jedoch vor mehreren Herausforderungen: (1) Sie schaffen es nicht, direkte intermodale Hinweise vollständig zu nutzen, was möglicherweise zu einer unvollständigen modellierenden Analyse über die Modalitäten hinweg führt; (2) sie extrahieren gleichzeitig Informationen aus der gleichen und verschiedenen Modalitäten in jeder Netzschicht, was Konflikte bei der Fusion von Mehrquellen-Daten auslösen könnte; (3) sie verfügen nicht über die nötige Flexibilität, um dynamische Veränderungen der Stimmung zu erkennen, was zu fehlerhaften Klassifikationen von Äußerungen mit plötzlichen Stimmungswechseln führen könnte. Um diese Probleme anzugehen, wird ein neuer Ansatz namens GraphSmile vorgeschlagen, um komplexe emotionale Hinweise in multimodalen Dialogen nachzuverfolgen.GraphSmile besteht aus zwei zentralen Komponenten, nämlich den Modulen GSF und SDP. GSF nutzt graphische Strukturen geschickt, um Schicht für Schicht intermodale und intramodale emotionale Abhängigkeiten abwechselnd zu integrieren. Dies ermöglicht es, modellierende Hinweise über die Modalitäten hinweg angemessen zu erfassen und gleichzeitig Fusionkonflikte effektiv zu vermeiden. SDP ist eine Nebenaufgabe, die dazu dient, die Stimmungsdynamik zwischen Äußerungen explizit darzulegen und so das Modell in seiner Fähigkeit unterstützt, Stimmungsunterschiede zu erkennen. Darüber hinaus kann GraphSmile nahtlos auf die multimodale Stimmungsanalyse in Konversationen (MSAC) angewendet werden, wodurch ein einheitliches multimodales affektives Modell entsteht, das sowohl MERC- als auch MSAC-Aufgaben durchführen kann.Empirische Ergebnisse auf mehreren Benchmarks zeigen, dass GraphSmile komplexe emotionale und stimmungsbezogene Muster bewältigen kann und dabei deutlich bessere Leistungen als Baseline-Modelle erzielt.