il y a 7 jours

mPLUG-Owl3 : Vers une compréhension des séquences d’images longues dans les modèles linguistiques à grande échelle multimodaux

Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou

Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLM) ont démontré des capacités remarquables dans l’exécution d'instructions pour une variété de tâches à image unique. Malgré ces progrès, des défis importants persistent dans la modélisation de séquences d’images longues. Dans ce travail, nous introduisons mPLUG-Owl3, un modèle linguistique à grande échelle multimodal polyvalent, qui améliore la capacité à comprendre les séquences d’images longues dans des scénarios intégrant des connaissances image-texte récupérées, des combinaisons alternées d’images et de texte, ainsi que des vidéos longues. Plus précisément, nous proposons de nouveaux blocs d’attention hyper pour intégrer efficacement la vision et le langage dans un espace sémantique guidé par le langage, facilitant ainsi le traitement de scénarios multi-images étendus. Des résultats expérimentaux étendus montrent que mPLUG-Owl3 atteint des performances de pointe parmi les modèles de taille similaire sur des benchmarks couvrant les tâches à image unique, à plusieurs images et vidéos. En outre, nous proposons une évaluation exigeante de séquences visuelles longues, nommée Résistance aux distractions, afin d’évaluer la capacité des modèles à maintenir leur concentration face à des éléments perturbateurs. Enfin, grâce à l’architecture proposée, mPLUG-Owl3 démontre des performances exceptionnelles sur des entrées de séquences visuelles ultra-longues. Nous espérons que mPLUG-Owl3 contribuera au développement de modèles linguistiques à grande échelle multimodaux plus efficaces et puissants.