16 天前
MIMIC-IT:多模态上下文指令微调
Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu

摘要
高质量的指令与响应对大语言模型在交互式自然语言任务中的零样本性能至关重要。对于涉及复杂视觉场景的交互式视觉-语言任务,亟需大量多样化且富有创意的视觉-语言指令-响应对,以有效微调视觉-语言模型(VLMs)。然而,当前可用的视觉-语言指令-响应对在数量、多样性与创造性方面仍显不足,严重制约了交互式VLMs的泛化能力。为此,我们提出MultI-Modal In-Context Instruction Tuning(MIMIC-IT)数据集,该数据集包含280万条多模态指令-响应对,其中220万条指令源自图像与视频。每一对指令-响应均配有丰富的多模态上下文信息,构建出具有对话连贯性的上下文场景,旨在增强VLM在感知、推理与规划方面的能力。指令-响应对的收集过程被称为Syphus,其通过融合人类专家知识与GPT模型能力的自动化标注流程实现规模化构建。基于MIMIC-IT数据集,我们训练了名为Otter的大规模视觉-语言模型。在多个视觉-语言基准上的广泛评估表明,Otter在多模态感知、推理及上下文学习方面展现出卓越性能。人工评估进一步证实,Otter能够有效理解并契合用户意图。我们已公开发布MIMIC-IT数据集、指令-响应收集流程、评估基准以及Otter模型,以推动该领域的发展。