Descente de gradient alternée et mélange d'experts pour la perception multimodale intégrée

Nous présentons l'Integrated Multimodal Perception (IMP), une approche de formation et de modélisation multimodale et multitâche simple et évolutive. L'IMP intègre des entrées multimodales, y compris des images, des vidéos, du texte et de l'audio, dans un seul encodeur Transformer avec un minimum de composants spécifiques à chaque modalité. L'IMP utilise une conception novatrice qui combine la Descente de Gradient Alternée (AGD) et le Mélange d'Experts (MoE) pour une mise à l'échelle efficace du modèle et des tâches. Nous menons des études empiriques approfondies et révélons les points clés suivants : 1) La réalisation de mises à jour par descente de gradient en alternant entre différentes modalités, fonctions de perte et tâches, avec des résolutions d'entrée variables, améliore efficacement le modèle. 2) La sparsification avec MoE sur un encodeur unique agnostique aux modalités améliore considérablement les performances, surpassant les modèles denses utilisant des encodeurs spécifiques à chaque modalité ou des couches de fusion supplémentaires, et atténue grandement les conflits entre les modalités. L'IMP obtient des performances compétitives sur une large gamme de tâches en aval, notamment la classification vidéo, la classification d'image, la recherche d'image-texte et la recherche vidéo-texte. De manière particulièrement notable, nous formons une variante IMP-MoE-L éparse axée sur les tâches vidéo qui atteint un nouveau niveau d'excellence dans la classification vidéo sans supervision préalable : 77,0 % sur Kinetics-400, 76,8 % sur Kinetics-600 et 68,3 % sur Kinetics-700, améliorant respectivement l'état de l'art précédent de +5 %, +6,7 % et +5,8 % tout en n'utilisant que 15 % du coût computationnel total de leur formation.