HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de l'apprentissage multi-modale grâce à des enseignants unimodaux

Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao

Résumé

L’apprentissage de représentations multi-modales constitue une étape essentielle vers les applications robotiques en milieu réel, et divers modèles de fusion multi-modales ont été développés à cette fin. Toutefois, nous observons que les modèles existants, dont les objectifs reposent principalement sur une entraînement conjoint, souffrent fréquemment de représentations de modales inférieures. Nous désignons ce phénomène par le terme d’« échec modal », et formulons l’hypothèse selon laquelle l’imbalance entre les modalités ainsi que le biais implicite des objectifs communs utilisés dans les méthodes de fusion entravent l’apprentissage suffisant des caractéristiques par les encodeurs de chaque modalité. A cet effet, nous proposons une nouvelle méthode d’apprentissage multi-modal, appelée Uni-Modal Teacher, qui combine l’objectif de fusion et une distillation uni-modale afin de résoudre le problème d’échec modal. Nous démontrons que notre méthode améliore non seulement de manière significative la qualité des représentations de chaque modalité, mais aussi les performances globales sur les tâches multi-modales. Cette approche peut être efficacement généralisée à la plupart des méthodes de fusion multi-modales. Nous obtenons une amélioration de plus de 3 % sur la tâche de classification audio-visuelle VGGSound, ainsi qu’une meilleure performance sur la tâche de segmentation d’images RGB-D du jeu de données NYU Depth V2.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Amélioration de l'apprentissage multi-modale grâce à des enseignants unimodaux | Articles | HyperAI