mPLUG-Owl : La modularisation permet aux grands modèles linguistiques d’acquérir une multimodalité

Les grands modèles linguistiques (LLM) ont fait preuve de capacités impressionnantes en mode zero-shot sur une variété de tâches ouvertes, tandis que des recherches récentes ont également exploré l’utilisation des LLM pour la génération multimodale. Dans cette étude, nous introduisons mPLUG-Owl, un nouveau paradigme d’entraînement qui confère aux LLM des capacités multimodales grâce à une approche d’apprentissage modulaire reposant sur un modèle LLM fondamental, un module de connaissance visuelle et un module d’abstraction visuelle. Cette méthode permet de soutenir plusieurs modalités et favorise des capacités unimodales et multimodales variées grâce à une collaboration intermodale. Le paradigme d’entraînement de mPLUG-Owl repose sur une méthode en deux étapes visant à aligner les images et les textes, qui permet d’apprendre des connaissances visuelles avec l’aide du LLM tout en préservant, voire en améliorant, les capacités de génération du modèle linguistique. Dans la première étape, le module de connaissance visuelle et le module d’abstraction sont entraînés avec un module LLM gelé afin d’aligner les images et les textes. Dans la deuxième étape, des jeux de données supervisés, à la fois unimodaux (langage uniquement) et multimodaux, sont utilisés pour ajuster conjointement un module d’adaptation à faible rang (LoRA) appliqué au LLM et au module d’abstraction, tout en maintenant gelé le module de connaissance visuelle. Nous avons soigneusement construit un ensemble d’évaluation instruite liée à l’image, appelé OwlEval. Les résultats expérimentaux montrent que notre modèle surpasser les modèles multimodaux existants, démontrant ainsi les capacités remarquables de mPLUG-Owl en compréhension d’instruction et visuelle, en capacité de conversation à plusieurs tours, ainsi qu’en raisonnement de connaissance. En outre, nous avons observé certaines capacités inattendues et prometteuses, telles que la corrélation entre plusieurs images et la compréhension du texte scénique, ce qui ouvre la voie à une utilisation dans des scénarios réels plus complexes, comme la compréhension de documents uniquement visuels. Le code source, le modèle pré-entraîné, les modèles ajustés à l’aide d’instructions, ainsi que l’ensemble d’évaluation sont disponibles à l’adresse suivante : https://github.com/X-PLUG/mPLUG-Owl. Une démonstration en ligne est également accessible à : https://www.modelscope.cn/studios/damo/mPLUG-Owl.