Transformateur Multimodal pour des Séquences Linguistiques Multimodales Non Alignées

Le langage humain est souvent multimodal, englobant un mélange de langage naturel, de gestes faciaux et de comportements acoustiques. Cependant, deux défis majeurs se posent dans la modélisation de ces données temporelles multimodales : 1) le non-alignement inhérent des données en raison des taux d'échantillonnage variables pour les séquences de chaque modalité ; et 2) les dépendances à long terme entre les éléments des différentes modalités. Dans cet article, nous présentons le Multimodal Transformer (MulT), qui aborde de manière générique ces problèmes de manière intégrée sans aligner explicitement les données. Au cœur de notre modèle se trouve l'attention croisée bidirectionnelle, qui prend en compte les interactions entre les séquences multimodales à différents instants et adapte latemment les flux d'une modalité à une autre. Des expériences exhaustives sur des séries temporelles multimodales alignées et non alignées montrent que notre modèle surpass largement les méthodes de pointe actuelles. De plus, l'analyse empirique suggère que les signaux croisés corrélés peuvent être capturés par le mécanisme d'attention croisée proposé dans MulT.