vor 17 Tagen

MMLatch: Bottom-up Top-down Fusion für die multimodale Stimmungsanalyse

Georgios Paraskevopoulos, Efthymios Georgiou, Alexandros Potamianos

Abstract

Aktuelle Ansätze des tiefen Lernens zur multimodalen Fusion basieren entweder auf einer bottom-up-Fusion hoch- und mittelstufiger latenter Modaltitätsrepräsentationen (späte/mittlere Fusion) oder auf einer Fusion von niedrigstufigen sensorischen Eingaben (frühe Fusion). Modelle der menschlichen Wahrnehmung betonen die Bedeutung einer top-down-Fusion, bei der hochstufige Repräsentationen die Art und Weise beeinflussen, wie sensorische Eingaben wahrgenommen werden, also die kognitive Beeinflussung der Wahrnehmung. Diese top-down-Wechselwirkungen werden in aktuellen tiefen Lernmodellen nicht erfasst. In dieser Arbeit stellen wir eine neuronale Architektur vor, die top-down-übergreifende Modaltitäts-Interaktionen erfasst, indem sie während des Vorwärtsdurchlaufs im Trainingsprozess einen Rückkopplungsmechanismus einsetzt. Der vorgeschlagene Mechanismus extrahiert hochstufige Repräsentationen für jede Modality und nutzt diese, um die sensorischen Eingaben zu maskieren, wodurch das Modell eine top-down-Feature-Masking-Funktion ermöglicht. Wir wenden das vorgeschlagene Modell zur multimodalen Sentimenterkennung auf dem Datensatz CMU-MOSEI an. Unser Ansatz zeigt konsistente Verbesserungen gegenüber dem etablierten Modell MulT sowie gegenüber unserem starken Late-Fusion-Baseline und erreicht dabei Ergebnisse auf State-of-the-Art-Niveau.