Bouchons d'attention pour la fusion multimodale

Les êtres humains perçoivent le monde en traitant simultanément et en fusionnant des entrées multidimensionnelles provenant de différentes modalités, telles que la vision et l’audio. En revanche, les modèles de perception machine sont généralement spécifiques à une seule modalité et optimisés pour des benchmarks unimodaux, ce qui fait que la fusion tardive des représentations finales ou des prédictions issues de chaque modalité (« late-fusion ») reste encore le paradigme dominant pour la classification vidéo multimodale. À la place, nous introduisons une nouvelle architecture basée sur les transformeurs, qui utilise des « goulets d’étranglement de fusion » pour réaliser la fusion entre modalités à plusieurs couches. Contrairement à l’attention auto-supervisée par paires traditionnelle, notre modèle impose que les informations entre différentes modalités passent par un petit nombre de latents goulets d’étranglement, forçant ainsi le modèle à regrouper et à condenser les informations les plus pertinentes dans chaque modalité, tout en ne partageant que ce qui est nécessaire. Nous constatons que cette stratégie améliore les performances de fusion tout en réduisant le coût computationnel. Nous menons des études d’ablation approfondies et atteignons des résultats de pointe sur plusieurs benchmarks de classification audio-visuelle, notamment Audioset, Epic-Kitchens et VGGSound. Tous les codes et modèles seront publiés.