2 个月前
使用MATH-Vision数据集测量多模态数学推理能力
Ke Wang; Junting Pan; Weikang Shi; Zimu Lu; Mingjie Zhan; Hongsheng Li

摘要
近期在大型多模态模型(LMMs)领域的进展显示,这些模型在视觉情境中的数学推理方面取得了令人鼓舞的结果,其性能在现有的基准测试如MathVista上已接近人类水平。然而,我们发现这些基准测试中问题的多样性和涵盖的主题范围存在显著局限。为了解决这一问题,我们推出了MATH-Vision(MATH-V)数据集,这是一套精心整理的包含3,040个高质量数学问题的数据集,这些问题均来源于真实的数学竞赛,并具有视觉情境。该数据集涵盖了16个不同的数学学科,并按5个难度等级进行了分级,为评估LMMs的数学推理能力提供了全面且多样的挑战。通过广泛的实验,我们揭示了当前LMMs在MATH-V上的表现与人类表现之间存在明显的差距,突显了进一步发展LMMs的必要性。此外,我们的详细分类允许对LMMs进行深入的错误分析,为未来的研发提供了宝贵的见解。该项目可在https://mathvision-cuhk.github.io 获取。