mPLUG : Apprentissage vision-langage efficace et performant grâce aux connexions sautées inter-modales

Les grands modèles fondamentaux préentraînés constituent désormais un paradigme émergent pour le développement de systèmes d’intelligence artificielle (IA), capables d’être rapidement adaptés à une large gamme de tâches ultérieures. Ce papier présente mPLUG, un nouveau modèle fondamental multimodal pour la compréhension et la génération visuelle et linguistique. La plupart des modèles préentraînés existants souffrent de faibles performances en termes d’efficacité computationnelle et d’asymétrie d’information dues à la longueur des séquences visuelles dans l’alignement multimodal. Pour remédier à ces problèmes, mPLUG introduit une architecture vision-langage efficace et performante, basée sur des connexions croisées innovantes, qui établissent des raccourcis inter-couches permettant de sauter un certain nombre de couches, réduisant ainsi le temps nécessaire pour effectuer l’attention auto-complète complète du côté visuel. mPLUG est préentraîné de manière end-to-end sur de grandes collections de paires image-texte, avec à la fois des objectifs discriminatifs et génératifs. Il atteint des résultats de pointe sur une large gamme de tâches ultérieures vision-langage, telles que la génération de légendes d’images, la recherche d’images et de textes, le repérage visuel et la question-réponse visuelle. mPLUG démontre également une forte capacité de transfert zéro-shot lorsqu’il est directement appliqué à plusieurs tâches vidéo-langage.