Command Palette
Search for a command to run...
Amélioration de l'apprentissage multi-modale grâce à des enseignants unimodaux
Amélioration de l'apprentissage multi-modale grâce à des enseignants unimodaux
Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao
Résumé
L’apprentissage de représentations multi-modales constitue une étape essentielle vers les applications robotiques en milieu réel, et divers modèles de fusion multi-modales ont été développés à cette fin. Toutefois, nous observons que les modèles existants, dont les objectifs reposent principalement sur une entraînement conjoint, souffrent fréquemment de représentations de modales inférieures. Nous désignons ce phénomène par le terme d’« échec modal », et formulons l’hypothèse selon laquelle l’imbalance entre les modalités ainsi que le biais implicite des objectifs communs utilisés dans les méthodes de fusion entravent l’apprentissage suffisant des caractéristiques par les encodeurs de chaque modalité. A cet effet, nous proposons une nouvelle méthode d’apprentissage multi-modal, appelée Uni-Modal Teacher, qui combine l’objectif de fusion et une distillation uni-modale afin de résoudre le problème d’échec modal. Nous démontrons que notre méthode améliore non seulement de manière significative la qualité des représentations de chaque modalité, mais aussi les performances globales sur les tâches multi-modales. Cette approche peut être efficacement généralisée à la plupart des méthodes de fusion multi-modales. Nous obtenons une amélioration de plus de 3 % sur la tâche de classification audio-visuelle VGGSound, ainsi qu’une meilleure performance sur la tâche de segmentation d’images RGB-D du jeu de données NYU Depth V2.