5 个月前

MMDU：面向LVLMs的多轮多图像对话理解基准与指令微调数据集

Ziyu Liu Tao Chu Yuhang Zang Xilin Wei Xiaoyi Dong Pan Zhang Zijian Liang Yuanjun Xiong Yu Qiao Dahua Lin

摘要

生成自然且有意义的回应以与多模态人类输入进行交互，是大型视觉语言模型（Large Vision-Language Models, LVLMs）的一项基础能力。尽管当前开源的LVLMs在简化场景（如单轮单图像输入）中展现出令人瞩目的性能，但在真实对话场景中仍显不足，例如在包含多轮对话和多张图像的长上下文历史中执行指令。现有的LVLM评估基准主要聚焦于单选题或简短回答，难以充分评估LVLM在真实人机交互应用中的实际能力。为此，我们提出了MMDU——一个全面的评估基准，以及MMDU-45k——一个大规模的指令微调数据集，旨在评估并提升LVLM在多轮、多图像对话中的表现。我们采用聚类算法从开源的维基百科中提取相关图像与文本描述，并借助GPT-4o模型辅助，由人工标注者构建问答对。MMDU最大支持18,000个图像+文本标记、20张图像和27轮对话，其长度至少是此前基准的5倍，对当前LVLMs提出了严峻挑战。我们基于MMDU对15个代表性LVLMs进行深入分析，结果表明，由于缺乏充分的对话指令微调数据，开源LVLMs在性能上仍显著落后于闭源模型。我们进一步证明，在MMDU-45k上对开源LVLMs进行微调，能够显著缩小这一差距，生成更长且更准确的对话，并在MMDU及现有基准上均取得提升（MMStar：+1.1%，MathVista：+1.5%，ChartQA：+1.2%）。本研究为弥合当前LVLM模型与真实应用需求之间的差距提供了重要路径。该项目代码已开源，地址为：https://github.com/Liuziyu77/MMDU。

代码仓库

liuziyu77/mmdu

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
visual-question-answering-on-mm-vet	InternLM-XC2 + MMDU-45k	GPT-4 score: 38.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette