HyperAIHyperAI

Command Palette

Search for a command to run...

Descente de gradient alternée et mélange d'experts pour la perception multimodale intégrée

Hassan Akbari* Dan Kondratyuk* Yin Cui Rachel Hornung Huisheng Wang Hartwig Adam

Résumé

Nous présentons l'Integrated Multimodal Perception (IMP), une approche de formation et de modélisation multimodale et multitâche simple et évolutive. L'IMP intègre des entrées multimodales, y compris des images, des vidéos, du texte et de l'audio, dans un seul encodeur Transformer avec un minimum de composants spécifiques à chaque modalité. L'IMP utilise une conception novatrice qui combine la Descente de Gradient Alternée (AGD) et le Mélange d'Experts (MoE) pour une mise à l'échelle efficace du modèle et des tâches. Nous menons des études empiriques approfondies et révélons les points clés suivants : 1) La réalisation de mises à jour par descente de gradient en alternant entre différentes modalités, fonctions de perte et tâches, avec des résolutions d'entrée variables, améliore efficacement le modèle. 2) La sparsification avec MoE sur un encodeur unique agnostique aux modalités améliore considérablement les performances, surpassant les modèles denses utilisant des encodeurs spécifiques à chaque modalité ou des couches de fusion supplémentaires, et atténue grandement les conflits entre les modalités. L'IMP obtient des performances compétitives sur une large gamme de tâches en aval, notamment la classification vidéo, la classification d'image, la recherche d'image-texte et la recherche vidéo-texte. De manière particulièrement notable, nous formons une variante IMP-MoE-L éparse axée sur les tâches vidéo qui atteint un nouveau niveau d'excellence dans la classification vidéo sans supervision préalable : 77,0 % sur Kinetics-400, 76,8 % sur Kinetics-600 et 68,3 % sur Kinetics-700, améliorant respectivement l'état de l'art précédent de +5 %, +6,7 % et +5,8 % tout en n'utilisant que 15 % du coût computationnel total de leur formation.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp