Multimodaler Transformer für unalignierte multimodale Sprachsequenzen

Die menschliche Sprache ist oft multimodal und umfasst eine Mischung aus natürlicher Sprache, Gesichtsgesten und akustischen Verhaltensweisen. Bei der Modellierung solcher multimodaler Zeitreihendaten der menschlichen Sprache bestehen jedoch zwei wesentliche Herausforderungen: 1) die inhärente Datenmissalignment aufgrund variabler Abtastfrequenzen für die Sequenzen jeder Modalität; und 2) langfristige Abhängigkeiten zwischen Elementen über verschiedene Modalitäten hinweg. In dieser Arbeit stellen wir den Multimodal Transformer (MulT) vor, der diese Probleme generisch in einem End-to-End-Ansatz löst, ohne die Daten explizit zu alignen. Im Zentrum unseres Modells steht die direktionale paarweise multimodale Aufmerksamkeit, die Interaktionen zwischen multimodalen Sequenzen in unterschiedlichen Zeitschritten berücksichtigt und latente Anpassungen von Datenströmen einer Modalität an eine andere ermöglicht. Umfassende Experimente sowohl mit alignierten als auch nicht-alignierten multimodalen Zeitreihen zeigen, dass unser Modell erheblich besser abschneidet als die bislang besten Methoden. Darüber hinaus deutet eine empirische Analyse darauf hin, dass korrelierte multimodale Signale durch den vorgeschlagenen multimodal aufmerksamkeitsbasierten Mechanismus in MulT erfasst werden können.