1 个月前

多模态基础模型能否理解示意图?——科学论文信息检索问答的实证研究

Yilun Zhao, Chengye Wang, Chuhan Li, Arman Cohan
多模态基础模型能否理解示意图?——科学论文信息检索问答的实证研究
摘要

本文介绍了MISS-QA,这是首个专门设计用于评估模型在科学文献中解释示意图能力的基准测试。MISS-QA包含来自465篇科学论文的1,500个专家标注的示例。在这个基准测试中,模型需要解释展示研究概览的示意图,并根据论文的整体背景回答相应的问题。我们评估了包括o4-mini、Gemini-2.5-Flash和Qwen2.5-VL在内的18种前沿多模态基础模型的表现。结果显示,这些模型在MISS-QA上的表现与人类专家之间存在显著差距。通过对无法回答问题的模型表现分析以及详细的错误分析,我们进一步揭示了当前模型的优势和局限性,为提升模型在多模态科学文献理解方面的能力提供了关键见解。