mPLUG-Owl2 : Révolutionner les Modèles de Langage à Grande Échelle Multimodaux grâce à la Collaboration entre Modalités

Les modèles linguistiques à grande échelle multimodaux (MLLM) ont fait preuve d'une capacité impressionnante à suivre des instructions dans diverses tâches à réponse ouverte. Toutefois, les méthodes précédentes se sont principalement concentrées sur l'amélioration des capacités multimodales. Dans ce travail, nous introduisons un modèle linguistique à grande échelle multimodal polyvalent, mPLUG-Owl2, qui exploite efficacement la collaboration entre modalités afin d'améliorer les performances tant sur des tâches textuelles que multimodales. mPLUG-Owl2 repose sur une architecture réseau modularisée, où le décodeur linguistique agit comme une interface universelle pour gérer différentes modalités. Plus précisément, mPLUG-Owl2 intègre des modules fonctionnels partagés afin de favoriser la collaboration entre modalités, tout en introduisant un module adaptable aux modalités, qui préserve les caractéristiques spécifiques à chaque modalité. Des expériences étendues montrent que mPLUG-Owl2 est capable de généraliser à la fois aux tâches textuelles et multimodales, atteignant des performances de pointe avec un seul modèle générique. Notamment, mPLUG-Owl2 est le premier modèle MLLM à démontrer le phénomène de collaboration entre modalités aussi bien dans des scénarios purement textuels que multimodaux, ouvrant ainsi une voie pionnière dans le développement des futurs modèles fondamentaux multimodaux.