Command Palette
Search for a command to run...
MMICL : Accroître le potentiel des modèles vision-langage grâce à l'apprentissage multi-modal in-context
MMICL : Accroître le potentiel des modèles vision-langage grâce à l'apprentissage multi-modal in-context
Haozhe Zhao Zefan Cai Shuzheng Si Xiaojian Ma Kaikai An Liang Chen Zixuan Liu Sheng Wang Wenjuan Han Baobao Chang
Résumé
Depuis la renaissance de l’apprentissage profond, les modèles vision-langage (VLM) améliorés par des modèles de langage à grande échelle (LLM) ont connu une croissance exponentielle en popularité. Toutefois, bien que les LLM puissent exploiter de vastes connaissances contextuelles et des informations de tâche grâce à l’apprentissage in-context, la plupart des VLM restent confrontés à des difficultés pour comprendre des prompts multi-modaux complexes comportant plusieurs images, ce qui limite leur efficacité dans les tâches vision-langage ultérieures. Dans ce travail, nous abordons cette limitation en proposant : 1) un nouveau cadre, le modèle vision-langage à apprentissage in-context multi-modale (MMICL), permettant aux VLM de traiter efficacement des entrées multi-modales ; 2) un schéma de contexte innovant visant à renforcer la capacité d’apprentissage in-context des VLM ; 3) la construction d’un jeu de données dédié à l’apprentissage in-context multi-modale (MIC), conçu pour améliorer la capacité des VLM à interpréter des prompts multi-modaux complexes. Nos expériences montrent que MMICL atteint un nouveau record d’état de l’art en mode zéro-shot sur une large gamme de tâches vision-langage générales, en particulier sur des benchmarks complexes tels que MME et MMBench. L’analyse démontre que MMICL surmonte efficacement le défi de la compréhension de prompts multi-modaux complexes et exhibe une capacité remarquable d’apprentissage in-context. En outre, nous observons que MMICL atténue efficacement le biais linguistique présent dans les VLM, un problème courant qui conduit fréquemment à des hallucinations lorsque les modèles sont confrontés à de longs contextes textuels. Le code, le jeu de données, l’outil de traitement du jeu de données et le modèle sont disponibles à l’adresse suivante : https://github.com/PKUnlp-icler/MIC