HyperAIHyperAI

Command Palette

Search for a command to run...

GeminiFusion : Fusion Multimodale Pixel-par-Pixel Efficace pour les Vision Transformer

Ding Jia Jianyuan Guo Kai Han Han Wu Chao Zhang Chang Xu Xinghao Chen

Résumé

Les transformateurs cross-modaux ont fait preuve d'une supériorité dans diverses tâches visuelles en intégrant efficacement différentes modalités. Ce papier critique d'abord les méthodes précédentes d'échange de tokens, qui remplacent les tokens moins informatifs par des caractéristiques inter-modales, et démontre que les approches basées sur l'échange sous-performent par rapport aux mécanismes d'attention cross-modale, bien que le coût computationnel de ces derniers limite inévitablement leur utilisation sur des séquences plus longues. Pour surmonter ces défis computationnels, nous proposons GeminiFusion, une approche de fusion pixel-par-pixel qui exploite des représentations cross-modales alignées. GeminiFusion combine élégamment les attentions intra-modales et inter-modales, intégrant dynamiquement des informations complémentaires entre modalités. Nous introduisons un bruit adaptatif par couche afin de contrôler de manière adaptative leur interaction au niveau de chaque couche, permettant ainsi un processus de fusion harmonieux. Notamment, GeminiFusion préserve une complexité linéaire par rapport au nombre de tokens d'entrée, garantissant que ce cadre multimodal fonctionne avec une efficacité comparable aux réseaux unimodaux. Des évaluations complètes sur des tâches de traduction image à image multimodale, de détection d'objets 3D et de segmentation sémantique arbitraire de modalités, incluant des données RGB, profondeur, LiDAR, données d'événements, etc., démontrent les performances supérieures de notre méthode par rapport aux techniques de pointe. Le code PyTorch est disponible à l'adresse suivante : https://github.com/JiaDingCN/GeminiFusion


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GeminiFusion : Fusion Multimodale Pixel-par-Pixel Efficace pour les Vision Transformer | Articles | HyperAI