CSVQA:一个用于评估VLMs STEM推理能力的中文多模态基准数据集
Jian, Ai ; Qiu, Weijie ; Wang, Xiaokun ; Wang, Peiyu ; Hao, Yunzhuo ; Pei, Jiangbo ; Wei, Yichen ; Peng, Yi ; Song, Xuchen
发布日期: 6/4/2025

摘要
视觉-语言模型(VLMs)在多模态理解方面展示了显著的进步,然而其科学推理能力仍未能得到充分评估。当前的多模态基准测试主要评估通用图像理解或文本驱动的推理,缺乏需要将领域特定知识与视觉证据分析相结合的真实科学情境。为了填补这一空白,我们提出了CSVQA,这是一个专门设计用于通过领域基础的视觉问答来评估科学推理的诊断性多模态基准。我们的基准包含1,378个精心构建的问题-答案对,涵盖了多个STEM学科,每个问题都需要领域知识、视觉证据的整合以及高层次的推理能力。与之前的多模态基准相比,CSVQA更加注重真实世界中的科学内容和复杂推理。此外,我们还提出了一种严格的评估协议,系统地评估模型预测是否基于经过整理的解释而由有效的中间推理步骤所支持。我们在该基准上对15个VLMs进行了全面评估,结果显示了明显的性能差异,即使是最优秀的专有模型也仅达到了49.6%的准确率。这一实证结果突显了提升VLMs科学推理能力的紧迫需求。我们的CSVQA数据集已发布在 https://huggingface.co/datasets/Skywork/CSVQA。