摘要

自深度学习复兴以来，依托大规模语言模型（LLMs）增强的视觉-语言模型（VLMs）迅速崛起，受到广泛关注。然而，尽管LLMs能够通过上下文学习（in-context learning, ICL）有效利用丰富的背景知识和任务信息，大多数VLMs在理解包含多张图像的复杂多模态提示（multi-modal prompts）方面仍面临显著挑战，导致其在下游视觉-语言任务中的表现受限。针对这一问题，本文提出三项关键改进：1）提出一种新型视觉-语言模型——多模态上下文学习模型（Multi-Modal In-Context Learning, MMICL），使VLM能够高效处理多模态输入；2）设计一种新颖的上下文组织方案，显著增强VLM的上下文学习能力；3）构建了多模态上下文学习（Multi-modal In-Context Learning, MIC）数据集，专门用于提升VLM对复杂多模态提示的理解能力。实验结果表明，MMICL在广泛的一般性视觉-语言任务上实现了新的最先进零样本（zero-shot）性能，尤其在MME和MMBench等复杂基准测试中表现突出。分析进一步揭示，MMICL有效解决了复杂多模态提示理解的难题，并展现出卓越的上下文学习能力。此外，我们观察到，MMICL能够有效缓解VLM中存在的语言偏见（language bias）问题——这一常见缺陷常导致模型在面对大量文本上下文时产生幻觉（hallucination）。本文相关代码、数据集、数据处理工具及模型均已开源，地址为：https://github.com/PKUnlp-icler/MIC

源 PDF