HyperAIHyperAI

Command Palette

Search for a command to run...

mPLUG-2 : Un Modèle Fondamental Multi-modale Modularisé pour le Texte, l’Image et la Vidéo

Résumé

Les dernières années ont vu une convergence importante entre les modèles linguistiques, visuels et les pré-entraînements multimodaux. Dans ce travail, nous présentons mPLUG-2, un nouveau paradigme unifié fondé sur une architecture modulaire pour le pré-entraînement multimodal, capable de tirer parti de la collaboration entre modalités tout en résolvant le problème de l’entrelacement modal. Contrairement aux paradigmes dominants qui reposent exclusivement sur une génération séquentielle (sequence-to-sequence) ou sur une discrimination d’instances basée sur un encodeur, mPLUG-2 introduit un réseau composé de plusieurs modules en partageant des modules universels communs pour favoriser la collaboration entre modalités, tout en dissociant les modules spécifiques à chaque modalité afin de réduire l’entrelacement. Cette architecture offre une grande flexibilité dans le choix des modules adaptés aux différentes tâches d’analyse et de génération, couvrant toutes les modalités : texte, image et vidéo. Des études empiriques montrent que mPLUG-2 atteint des résultats de pointe ou compétitifs sur plus de 30 tâches downstream, incluant des tâches multimodales (compréhension et génération image-texte, vidéo-texte) ainsi que des tâches unimodales (texte uniquement, image uniquement, vidéo uniquement). Notamment, mPLUG-2 obtient de nouveaux résultats de pointe sur les tâches exigeantes de question-réponse vidéo (MSRVTT) et de génération de légendes vidéo, avec une précision top-1 de 48,0 % et un score CIDEr de 80,3, tout en utilisant un modèle bien plus petit et une échelle de données réduite. Il démontre également une forte capacité de transfert zéro-shot sur des tâches vision-langage et vidéo-langage. Le code source et les modèles seront publiés sur : https://github.com/alibaba/AliceMind.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp