HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de représentations de caractéristiques multimodales profondes avec une fusion multi-couche asymétrique

Yikai Wang Fuchun Sun Ming Lu Anbang Yao

Résumé

Nous proposons un cadre compact et efficace pour fusionner des caractéristiques multimodales à plusieurs niveaux au sein d’un seul réseau. Ce cadre repose sur deux schémas de fusion innovants. Premièrement, contrairement aux méthodes multimodales existantes qui nécessitent des encodeurs distincts pour chaque modalité, nous démontrons qu’il est possible d’apprendre des caractéristiques multimodales au sein d’un seul réseau partagé, en ne conservant que des couches de normalisation par lots spécifiques à chaque modalité dans l’encodeur, ce qui permet également une fusion implicite via l’apprentissage conjoint de représentations features. Deuxièmement, nous proposons un schéma de fusion bidirectionnel à plusieurs niveaux, permettant une exploitation progressive des caractéristiques multimodales. Pour tirer pleinement parti de ce schéma, nous introduisons deux opérations de fusion asymétriques : le mélange de canaux (channel shuffle) et le décalage de pixels (pixel shift), qui permettent d’apprendre des caractéristiques fusionnées différentes selon les directions de fusion. Ces deux opérations sont sans paramètre et renforcent les interactions entre canaux tout en améliorant la discrimination spatiale des caractéristiques au sein de chaque canal. Nous menons des expériences étendues sur des tâches de segmentation sémantique et de traduction d’images, basées sur trois jeux de données publics couvrant des modalités diverses. Les résultats montrent que le cadre proposé est généralisable, compact et supérieur aux meilleurs cadres de fusion actuels.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage de représentations de caractéristiques multimodales profondes avec une fusion multi-couche asymétrique | Articles | HyperAI