HyperAIHyperAI
il y a 19 jours

Apprentissage de représentations de caractéristiques multimodales profondes avec une fusion multi-couche asymétrique

Yikai Wang, Fuchun Sun, Ming Lu, Anbang Yao
Apprentissage de représentations de caractéristiques multimodales profondes avec une fusion multi-couche asymétrique
Résumé

Nous proposons un cadre compact et efficace pour fusionner des caractéristiques multimodales à plusieurs niveaux au sein d’un seul réseau. Ce cadre repose sur deux schémas de fusion innovants. Premièrement, contrairement aux méthodes multimodales existantes qui nécessitent des encodeurs distincts pour chaque modalité, nous démontrons qu’il est possible d’apprendre des caractéristiques multimodales au sein d’un seul réseau partagé, en ne conservant que des couches de normalisation par lots spécifiques à chaque modalité dans l’encodeur, ce qui permet également une fusion implicite via l’apprentissage conjoint de représentations features. Deuxièmement, nous proposons un schéma de fusion bidirectionnel à plusieurs niveaux, permettant une exploitation progressive des caractéristiques multimodales. Pour tirer pleinement parti de ce schéma, nous introduisons deux opérations de fusion asymétriques : le mélange de canaux (channel shuffle) et le décalage de pixels (pixel shift), qui permettent d’apprendre des caractéristiques fusionnées différentes selon les directions de fusion. Ces deux opérations sont sans paramètre et renforcent les interactions entre canaux tout en améliorant la discrimination spatiale des caractéristiques au sein de chaque canal. Nous menons des expériences étendues sur des tâches de segmentation sémantique et de traduction d’images, basées sur trois jeux de données publics couvrant des modalités diverses. Les résultats montrent que le cadre proposé est généralisable, compact et supérieur aux meilleurs cadres de fusion actuels.

Apprentissage de représentations de caractéristiques multimodales profondes avec une fusion multi-couche asymétrique | Articles de recherche | HyperAI