MMICL : Accroître le potentiel des modèles vision-langage grâce à l'apprentissage multi-modal in-context

Depuis la renaissance de l’apprentissage profond, les modèles vision-langage (VLM) améliorés par des modèles de langage à grande échelle (LLM) ont connu une croissance exponentielle en popularité. Toutefois, bien que les LLM puissent exploiter de vastes connaissances contextuelles et des informations de tâche grâce à l’apprentissage in-context, la plupart des VLM restent confrontés à des difficultés pour comprendre des prompts multi-modaux complexes comportant plusieurs images, ce qui limite leur efficacité dans les tâches vision-langage ultérieures. Dans ce travail, nous abordons cette limitation en proposant : 1) un nouveau cadre, le modèle vision-langage à apprentissage in-context multi-modale (MMICL), permettant aux VLM de traiter efficacement des entrées multi-modales ; 2) un schéma de contexte innovant visant à renforcer la capacité d’apprentissage in-context des VLM ; 3) la construction d’un jeu de données dédié à l’apprentissage in-context multi-modale (MIC), conçu pour améliorer la capacité des VLM à interpréter des prompts multi-modaux complexes. Nos expériences montrent que MMICL atteint un nouveau record d’état de l’art en mode zéro-shot sur une large gamme de tâches vision-langage générales, en particulier sur des benchmarks complexes tels que MME et MMBench. L’analyse démontre que MMICL surmonte efficacement le défi de la compréhension de prompts multi-modaux complexes et exhibe une capacité remarquable d’apprentissage in-context. En outre, nous observons que MMICL atténue efficacement le biais linguistique présent dans les VLM, un problème courant qui conduit fréquemment à des hallucinations lorsque les modèles sont confrontés à de longs contextes textuels. Le code, le jeu de données, l’outil de traitement du jeu de données et le modèle sont disponibles à l’adresse suivante : https://github.com/PKUnlp-icler/MIC