Fusion de jetons multimodaux pour les Transformers de vision

De nombreuses variantes des Transformers ont été proposées pour traiter les tâches visuelles à modalité unique, où des modules d’attention auto-attention sont empilés afin de gérer des sources d’entrée telles que des images. De manière intuitive, alimenter un Transformer visuel avec plusieurs modalités de données pourrait améliorer les performances, mais les poids d’attention intra-modal pourraient également être dilués, ce qui risque de compromettre les résultats finaux. Dans cet article, nous proposons une méthode de fusion de tokens multimodaux (TokenFusion), spécifiquement conçue pour les tâches visuelles basées sur les Transformers. Pour fusionner efficacement plusieurs modalités, TokenFusion détecte dynamiquement les tokens peu informatifs et les remplace par des caractéristiques inter-modales projetées et agrégées. Une alignment positionnel résiduel est également intégré afin de permettre une utilisation explicite des alignements inter-modaux après la fusion. Cette architecture permet au Transformer d’apprendre les corrélations entre les caractéristiques multimodales, tout en maintenant essentiellement intacte l’architecture initiale du Transformer à une seule modalité. Des expériences étendues ont été menées sur diverses modalités homogènes et hétérogènes, démontrant que TokenFusion surpasse les méthodes de pointe dans trois tâches visuelles typiques : la traduction d’image à image multimodale, la segmentation sémantique RGB-profondeur et la détection d’objets 3D à partir de nuages de points et d’images. Notre code est disponible à l’adresse suivante : https://github.com/yikaiw/TokenFusion.