HyperAIHyperAI

Command Palette

Search for a command to run...

mPLUG-Owl3 : Vers une compréhension des séquences d’images longues dans les modèles linguistiques à grande échelle multimodaux

Jiabo Ye Haiyang Xu Haowei Liu Anwen Hu Ming Yan Qi Qian Ji Zhang Fei Huang Jingren Zhou

Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLM) ont démontré des capacités remarquables dans l’exécution d'instructions pour une variété de tâches à image unique. Malgré ces progrès, des défis importants persistent dans la modélisation de séquences d’images longues. Dans ce travail, nous introduisons mPLUG-Owl3, un modèle linguistique à grande échelle multimodal polyvalent, qui améliore la capacité à comprendre les séquences d’images longues dans des scénarios intégrant des connaissances image-texte récupérées, des combinaisons alternées d’images et de texte, ainsi que des vidéos longues. Plus précisément, nous proposons de nouveaux blocs d’attention hyper pour intégrer efficacement la vision et le langage dans un espace sémantique guidé par le langage, facilitant ainsi le traitement de scénarios multi-images étendus. Des résultats expérimentaux étendus montrent que mPLUG-Owl3 atteint des performances de pointe parmi les modèles de taille similaire sur des benchmarks couvrant les tâches à image unique, à plusieurs images et vidéos. En outre, nous proposons une évaluation exigeante de séquences visuelles longues, nommée Résistance aux distractions, afin d’évaluer la capacité des modèles à maintenir leur concentration face à des éléments perturbateurs. Enfin, grâce à l’architecture proposée, mPLUG-Owl3 démontre des performances exceptionnelles sur des entrées de séquences visuelles ultra-longues. Nous espérons que mPLUG-Owl3 contribuera au développement de modèles linguistiques à grande échelle multimodaux plus efficaces et puissants.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp