il y a 6 mois

Résumé

Les transformateurs cross-modaux ont fait preuve d'une supériorité dans diverses tâches visuelles en intégrant efficacement différentes modalités. Ce papier critique d'abord les méthodes précédentes d'échange de tokens, qui remplacent les tokens moins informatifs par des caractéristiques inter-modales, et démontre que les approches basées sur l'échange sous-performent par rapport aux mécanismes d'attention cross-modale, bien que le coût computationnel de ces derniers limite inévitablement leur utilisation sur des séquences plus longues. Pour surmonter ces défis computationnels, nous proposons GeminiFusion, une approche de fusion pixel-par-pixel qui exploite des représentations cross-modales alignées. GeminiFusion combine élégamment les attentions intra-modales et inter-modales, intégrant dynamiquement des informations complémentaires entre modalités. Nous introduisons un bruit adaptatif par couche afin de contrôler de manière adaptative leur interaction au niveau de chaque couche, permettant ainsi un processus de fusion harmonieux. Notamment, GeminiFusion préserve une complexité linéaire par rapport au nombre de tokens d'entrée, garantissant que ce cadre multimodal fonctionne avec une efficacité comparable aux réseaux unimodaux. Des évaluations complètes sur des tâches de traduction image à image multimodale, de détection d'objets 3D et de segmentation sémantique arbitraire de modalités, incluant des données RGB, profondeur, LiDAR, données d'événements, etc., démontrent les performances supérieures de notre méthode par rapport aux techniques de pointe. Le code PyTorch est disponible à l'adresse suivante : https://github.com/JiaDingCN/GeminiFusion

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Représentation Multimodale

Segmentation Sémantique

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Ding Jia Jianyuan Guo Kai Han Han Wu Chao Zhang Chang Xu Xinghao Chen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Représentation Multimodale

Segmentation Sémantique

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Ding Jia Jianyuan Guo Kai Han Han Wu Chao Zhang Chang Xu Xinghao Chen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

GeminiFusion : Fusion Multimodale Pixel-par-Pixel Efficace pour les Vision Transformer

Ding Jia Jianyuan Guo Kai Han Han Wu Chao Zhang Chang Xu Xinghao Chen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

GeminiFusion : Fusion Multimodale Pixel-par-Pixel Efficace pour les Vision Transformer

Ding Jia Jianyuan Guo Kai Han Han Wu Chao Zhang Chang Xu Xinghao Chen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

GeminiFusion : Fusion Multimodale Pixel-par-Pixel Efficace pour les Vision Transformer

Ding Jia Jianyuan Guo Kai Han Han Wu Chao Zhang Chang Xu Xinghao Chen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters