HyperAIHyperAI
il y a 17 jours

GeminiFusion : Fusion Multimodale Pixel-par-Pixel Efficace pour les Vision Transformer

Ding Jia, Jianyuan Guo, Kai Han, Han Wu, Chao Zhang, Chang Xu, Xinghao Chen
GeminiFusion : Fusion Multimodale Pixel-par-Pixel Efficace pour les Vision Transformer
Résumé

Les transformateurs cross-modaux ont fait preuve d'une supériorité dans diverses tâches visuelles en intégrant efficacement différentes modalités. Ce papier critique d'abord les méthodes précédentes d'échange de tokens, qui remplacent les tokens moins informatifs par des caractéristiques inter-modales, et démontre que les approches basées sur l'échange sous-performent par rapport aux mécanismes d'attention cross-modale, bien que le coût computationnel de ces derniers limite inévitablement leur utilisation sur des séquences plus longues. Pour surmonter ces défis computationnels, nous proposons GeminiFusion, une approche de fusion pixel-par-pixel qui exploite des représentations cross-modales alignées. GeminiFusion combine élégamment les attentions intra-modales et inter-modales, intégrant dynamiquement des informations complémentaires entre modalités. Nous introduisons un bruit adaptatif par couche afin de contrôler de manière adaptative leur interaction au niveau de chaque couche, permettant ainsi un processus de fusion harmonieux. Notamment, GeminiFusion préserve une complexité linéaire par rapport au nombre de tokens d'entrée, garantissant que ce cadre multimodal fonctionne avec une efficacité comparable aux réseaux unimodaux. Des évaluations complètes sur des tâches de traduction image à image multimodale, de détection d'objets 3D et de segmentation sémantique arbitraire de modalités, incluant des données RGB, profondeur, LiDAR, données d'événements, etc., démontrent les performances supérieures de notre méthode par rapport aux techniques de pointe. Le code PyTorch est disponible à l'adresse suivante : https://github.com/JiaDingCN/GeminiFusion

GeminiFusion : Fusion Multimodale Pixel-par-Pixel Efficace pour les Vision Transformer | Articles de recherche récents | HyperAI