3 个月前

MMICL:通过多模态上下文学习赋能视觉-语言模型

Haozhe Zhao, Zefan Cai, Shuzheng Si, Xiaojian Ma, Kaikai An, Liang Chen, Zixuan Liu, Sheng Wang, Wenjuan Han, Baobao Chang
MMICL:通过多模态上下文学习赋能视觉-语言模型
摘要

自深度学习复兴以来,依托大规模语言模型(LLMs)增强的视觉-语言模型(VLMs)迅速崛起,受到广泛关注。然而,尽管LLMs能够通过上下文学习(in-context learning, ICL)有效利用丰富的背景知识和任务信息,大多数VLMs在理解包含多张图像的复杂多模态提示(multi-modal prompts)方面仍面临显著挑战,导致其在下游视觉-语言任务中的表现受限。针对这一问题,本文提出三项关键改进:1)提出一种新型视觉-语言模型——多模态上下文学习模型(Multi-Modal In-Context Learning, MMICL),使VLM能够高效处理多模态输入;2)设计一种新颖的上下文组织方案,显著增强VLM的上下文学习能力;3)构建了多模态上下文学习(Multi-modal In-Context Learning, MIC)数据集,专门用于提升VLM对复杂多模态提示的理解能力。实验结果表明,MMICL在广泛的一般性视觉-语言任务上实现了新的最先进零样本(zero-shot)性能,尤其在MME和MMBench等复杂基准测试中表现突出。分析进一步揭示,MMICL有效解决了复杂多模态提示理解的难题,并展现出卓越的上下文学习能力。此外,我们观察到,MMICL能够有效缓解VLM中存在的语言偏见(language bias)问题——这一常见缺陷常导致模型在面对大量文本上下文时产生幻觉(hallucination)。本文相关代码、数据集、数据处理工具及模型均已开源,地址为:https://github.com/PKUnlp-icler/MIC