Command Palette
Search for a command to run...

摘要
生成自然且有意义的回应以与多模态人类输入进行交互,是大型视觉语言模型(Large Vision-Language Models, LVLMs)的一项基础能力。尽管当前开源的LVLMs在简化场景(如单轮单图像输入)中展现出令人瞩目的性能,但在真实对话场景中仍显不足,例如在包含多轮对话和多张图像的长上下文历史中执行指令。现有的LVLM评估基准主要聚焦于单选题或简短回答,难以充分评估LVLM在真实人机交互应用中的实际能力。为此,我们提出了MMDU——一个全面的评估基准,以及MMDU-45k——一个大规模的指令微调数据集,旨在评估并提升LVLM在多轮、多图像对话中的表现。我们采用聚类算法从开源的维基百科中提取相关图像与文本描述,并借助GPT-4o模型辅助,由人工标注者构建问答对。MMDU最大支持18,000个图像+文本标记、20张图像和27轮对话,其长度至少是此前基准的5倍,对当前LVLMs提出了严峻挑战。我们基于MMDU对15个代表性LVLMs进行深入分析,结果表明,由于缺乏充分的对话指令微调数据,开源LVLMs在性能上仍显著落后于闭源模型。我们进一步证明,在MMDU-45k上对开源LVLMs进行微调,能够显著缩小这一差距,生成更长且更准确的对话,并在MMDU及现有基准上均取得提升(MMStar:+1.1%,MathVista:+1.5%,ChartQA:+1.2%)。本研究为弥合当前LVLM模型与真实应用需求之间的差距提供了重要路径。该项目代码已开源,地址为:https://github.com/Liuziyu77/MMDU。
代码仓库
liuziyu77/mmdu
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-mm-vet | InternLM-XC2 + MMDU-45k | GPT-4 score: 38.8 |