HyperAIHyperAI
vor 4 Monaten

Erneute Betrachtung des multimodalen Emotionslernens mit breiten Zustandsraummodellen und wahrscheinlichkeitsgeleiteter Fusion

Yuntao Shou; Tao Meng; Fuchen Zhang; Nan Yin; Keqin Li
Erneute Betrachtung des multimodalen Emotionslernens mit breiten Zustandsraummodellen und wahrscheinlichkeitsgeleiteter Fusion
Abstract

Die Mehrmodalen Emotionserkennung in Konversationen (MERC) hat in verschiedenen Bereichen, wie der Mensch-Computer-Interaktion und Empfehlungssystemen, erhebliche Aufmerksamkeit gefunden. Die meisten bisherigen Arbeiten führen Merkmalsentflechtung und -fusion durch, um emotionsbezogene kontextuelle Informationen aus mehrmodalen Merkmalen zu extrahieren und die Emotionsklassifizierung durchzuführen. Nach einer erneuten Betrachtung der Eigenschaften von MERC argumentieren wir, dass langfristige kontextuelle semantische Informationen im Stadium der Merkmalsentflechtung extrahiert werden sollten und die Intermodalitätssemantik-Konsistenz im Stadium der Merkmalsfusion maximiert werden sollte. Inspiriert von den jüngsten Zustandsraummodellen (SSMs) kann Mamba langdistanzige Abhängigkeiten effizient modellieren. Daher berücksichtigen wir in dieser Arbeit vollständig die oben genannten Erkenntnisse, um die Leistungsfähigkeit von MERC weiter zu verbessern.Speziell betrachtet, schlagen wir im Stadium der Merkmalsentflechtung ein breites Mamba vor, das nicht auf einen Selbst-Aufmerksamkeitsmechanismus für Sequenzmodellierung angewiesen ist, sondern Zustandsraummodelle verwendet, um emotionsbezogene Darstellungen zu komprimieren, und breite Lernsysteme nutzt, um die potentielle Datenverteilung im breiten Raum zu erforschen. Im Gegensatz zu früheren SSMs entwerfen wir eine bidirektionale SSM-Faltung zur Extraktion globaler Kontextinformationen. Andererseits entwickeln wir eine mehrmodale Fusionstrategie basierend auf wahrscheinlichkeitsgeleiteten Methoden, um die Konsistenz der Informationen zwischen den Modalitäten zu maximieren. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Verfahren die rechnerischen und speicherbedingten Einschränkungen des Transformers bei der Modellierung langdistanzierter Kontexte überwinden kann und großes Potenzial besitzt, zur nächsten Generation allgemeiner Architekturen in MERC zu werden.