HyperAI超神经

MV-MATH 数学推理注释数据集

日期

2 个月前

大小

40.82 MB

机构

chinese academy of sciences (中国科学院)

许可协议

MIT

MV-MATH 是由中国科学院自动化研究所于 2025 年提出的一个多模态数学推理基准数据集,旨在全面评估多模态大语言模型 (MLLMs) 在多视觉场景中的数学推理能力,相关论文成果为「MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts」,已被 CVPR 2025 录用。

MV-MATH 数据集包含 2,009 个高质量数学问题,问题类型分为选择题、填空题和多步问答题三种。数据集内含多个视觉场景,每个问题都配有 2 到 8 张图像,这些图像与文本交织在一起,形成复杂的多视觉场景,更贴近现实世界中的数学问题,能够有效评估模型处理多视觉信息的推理能力。其次,数据集的标注十分丰富,每个样本都经过至少两名标注者的交叉验证,标注内容涵盖问题、答案、详细分析以及图像关联性等,为模型评估提供了详尽的信息。此外,数据集涵盖了从基础算术到高级几何的 11 个数学领域,包括解析几何、代数、度量几何、组合学、变换几何、逻辑、立体几何、算术、组合几何、描述性几何和统计学。根据详细答案的长度,数据集还被划分为 3 个难度等级,能够全面评估模型在不同数学领域的推理能力。值得一提的是,该数据集首次引入了图像相关性这一特征标签,将数据集分为相互依赖集 (Mutually Dependent Set, MD) 和独立集 (Independent Set, ID) 两个子集。在 MD 子集中,图像之间相互关联,理解一个图像需要参考其他图像;而在 ID 子集中,图像之间相互独立,可以单独解释。

它不仅源于真实的 K-12 教育场景,可用于开发智能辅导系统,帮助学生通过图文结合的方式解决复杂数学问题,还为多模态学习研究提供了标准化评估工具,帮助研究者识别和改进模型在数学推理中的性能差距。然而,在对主流多模态大语言模型的测试中,如 GPT-4o 和 QvQ,其在 MV-MATH 数据集上的得分分别为 32.1 和 29.3,均未达到及格线,这表明当前的多模态大模型在多视觉数学推理任务中仍面临重大挑战。

从每种问题类型中抽取的 MV-MATH 示例,每个样本包含多视觉背景。
MV-MATH.torrent
做种 2正在下载 0已完成 31总下载次数 46
  • MV-MATH/
    • README.md
      3.03 KB
    • README.txt
      6.05 KB
      • data/
        • main.zip
          40.82 MB