il y a 7 jours

mPLUG-2 : Un Modèle Fondamental Multi-modale Modularisé pour le Texte, l’Image et la Vidéo

Haiyang Xu, Qinghao Ye, Ming Yan, Yaya Shi, Jiabo Ye, Yuanhong Xu, Chenliang Li, Bin Bi, Qi Qian, Wei Wang, Guohai Xu, Ji Zhang, Songfang Huang, Fei Huang, Jingren Zhou

Voir les détails de l'article

mPLUG-2 : Un Modèle Fondamental Multi-modale Modularisé pour le Texte, l’Image et la Vidéo

Résumé

Les dernières années ont vu une convergence importante entre les modèles linguistiques, visuels et les pré-entraînements multimodaux. Dans ce travail, nous présentons mPLUG-2, un nouveau paradigme unifié fondé sur une architecture modulaire pour le pré-entraînement multimodal, capable de tirer parti de la collaboration entre modalités tout en résolvant le problème de l’entrelacement modal. Contrairement aux paradigmes dominants qui reposent exclusivement sur une génération séquentielle (sequence-to-sequence) ou sur une discrimination d’instances basée sur un encodeur, mPLUG-2 introduit un réseau composé de plusieurs modules en partageant des modules universels communs pour favoriser la collaboration entre modalités, tout en dissociant les modules spécifiques à chaque modalité afin de réduire l’entrelacement. Cette architecture offre une grande flexibilité dans le choix des modules adaptés aux différentes tâches d’analyse et de génération, couvrant toutes les modalités : texte, image et vidéo. Des études empiriques montrent que mPLUG-2 atteint des résultats de pointe ou compétitifs sur plus de 30 tâches downstream, incluant des tâches multimodales (compréhension et génération image-texte, vidéo-texte) ainsi que des tâches unimodales (texte uniquement, image uniquement, vidéo uniquement). Notamment, mPLUG-2 obtient de nouveaux résultats de pointe sur les tâches exigeantes de question-réponse vidéo (MSRVTT) et de génération de légendes vidéo, avec une précision top-1 de 48,0 % et un score CIDEr de 80,3, tout en utilisant un modèle bien plus petit et une échelle de données réduite. Il démontre également une forte capacité de transfert zéro-shot sur des tâches vision-langage et vidéo-langage. Le code source et les modèles seront publiés sur : https://github.com/alibaba/AliceMind.