HyperAIHyperAI

Command Palette

Search for a command to run...

MMLatch: Bottom-up Top-down Fusion für die multimodale Stimmungsanalyse

Georgios Paraskevopoulos Efthymios Georgiou Alexandros Potamianos

Zusammenfassung

Aktuelle Ansätze des tiefen Lernens zur multimodalen Fusion basieren entweder auf einer bottom-up-Fusion hoch- und mittelstufiger latenter Modaltitätsrepräsentationen (späte/mittlere Fusion) oder auf einer Fusion von niedrigstufigen sensorischen Eingaben (frühe Fusion). Modelle der menschlichen Wahrnehmung betonen die Bedeutung einer top-down-Fusion, bei der hochstufige Repräsentationen die Art und Weise beeinflussen, wie sensorische Eingaben wahrgenommen werden, also die kognitive Beeinflussung der Wahrnehmung. Diese top-down-Wechselwirkungen werden in aktuellen tiefen Lernmodellen nicht erfasst. In dieser Arbeit stellen wir eine neuronale Architektur vor, die top-down-übergreifende Modaltitäts-Interaktionen erfasst, indem sie während des Vorwärtsdurchlaufs im Trainingsprozess einen Rückkopplungsmechanismus einsetzt. Der vorgeschlagene Mechanismus extrahiert hochstufige Repräsentationen für jede Modality und nutzt diese, um die sensorischen Eingaben zu maskieren, wodurch das Modell eine top-down-Feature-Masking-Funktion ermöglicht. Wir wenden das vorgeschlagene Modell zur multimodalen Sentimenterkennung auf dem Datensatz CMU-MOSEI an. Unser Ansatz zeigt konsistente Verbesserungen gegenüber dem etablierten Modell MulT sowie gegenüber unserem starken Late-Fusion-Baseline und erreicht dabei Ergebnisse auf State-of-the-Art-Niveau.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp