Command Palette

Search for a command to run...

5 个月前

MMDU:面向LVLMs的多轮多图像对话理解基准与指令微调数据集

MMDU:面向LVLMs的多轮多图像对话理解基准与指令微调数据集

摘要

生成自然且有意义的回应以与多模态人类输入进行交互,是大型视觉语言模型(Large Vision-Language Models, LVLMs)的一项基础能力。尽管当前开源的LVLMs在简化场景(如单轮单图像输入)中展现出令人瞩目的性能,但在真实对话场景中仍显不足,例如在包含多轮对话和多张图像的长上下文历史中执行指令。现有的LVLM评估基准主要聚焦于单选题或简短回答,难以充分评估LVLM在真实人机交互应用中的实际能力。为此,我们提出了MMDU——一个全面的评估基准,以及MMDU-45k——一个大规模的指令微调数据集,旨在评估并提升LVLM在多轮、多图像对话中的表现。我们采用聚类算法从开源的维基百科中提取相关图像与文本描述,并借助GPT-4o模型辅助,由人工标注者构建问答对。MMDU最大支持18,000个图像+文本标记、20张图像和27轮对话,其长度至少是此前基准的5倍,对当前LVLMs提出了严峻挑战。我们基于MMDU对15个代表性LVLMs进行深入分析,结果表明,由于缺乏充分的对话指令微调数据,开源LVLMs在性能上仍显著落后于闭源模型。我们进一步证明,在MMDU-45k上对开源LVLMs进行微调,能够显著缩小这一差距,生成更长且更准确的对话,并在MMDU及现有基准上均取得提升(MMStar:+1.1%,MathVista:+1.5%,ChartQA:+1.2%)。本研究为弥合当前LVLM模型与真实应用需求之间的差距提供了重要路径。该项目代码已开源,地址为:https://github.com/Liuziyu77/MMDU。

代码仓库

liuziyu77/mmdu
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-mm-vetInternLM-XC2 + MMDU-45k
GPT-4 score: 38.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供