HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodaler Transformer für unalignierte multimodale Sprachsequenzen

Yao-Hung Hubert Tsai *equal contribution Shaojie Bai *equal contribution J. Zico Kolter Louis-Philippe Morency Paul Pu Liang Ruslan Salakhutdinov

Zusammenfassung

Die menschliche Sprache ist oft multimodal und umfasst eine Mischung aus natürlicher Sprache, Gesichtsgesten und akustischen Verhaltensweisen. Bei der Modellierung solcher multimodaler Zeitreihendaten der menschlichen Sprache bestehen jedoch zwei wesentliche Herausforderungen: 1) die inhärente Datenmissalignment aufgrund variabler Abtastfrequenzen für die Sequenzen jeder Modalität; und 2) langfristige Abhängigkeiten zwischen Elementen über verschiedene Modalitäten hinweg. In dieser Arbeit stellen wir den Multimodal Transformer (MulT) vor, der diese Probleme generisch in einem End-to-End-Ansatz löst, ohne die Daten explizit zu alignen. Im Zentrum unseres Modells steht die direktionale paarweise multimodale Aufmerksamkeit, die Interaktionen zwischen multimodalen Sequenzen in unterschiedlichen Zeitschritten berücksichtigt und latente Anpassungen von Datenströmen einer Modalität an eine andere ermöglicht. Umfassende Experimente sowohl mit alignierten als auch nicht-alignierten multimodalen Zeitreihen zeigen, dass unser Modell erheblich besser abschneidet als die bislang besten Methoden. Darüber hinaus deutet eine empirische Analyse darauf hin, dass korrelierte multimodale Signale durch den vorgeschlagenen multimodal aufmerksamkeitsbasierten Mechanismus in MulT erfasst werden können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp