8 个月前

Ke Wang; Junting Pan; Weikang Shi; Zimu Lu; Mingjie Zhan; Hongsheng Li

摘要

近期在大型多模态模型（LMMs）领域的进展显示，这些模型在视觉情境中的数学推理方面取得了令人鼓舞的结果，其性能在现有的基准测试如MathVista上已接近人类水平。然而，我们发现这些基准测试中问题的多样性和涵盖的主题范围存在显著局限。为了解决这一问题，我们推出了MATH-Vision（MATH-V）数据集，这是一套精心整理的包含3,040个高质量数学问题的数据集，这些问题均来源于真实的数学竞赛，并具有视觉情境。该数据集涵盖了16个不同的数学学科，并按5个难度等级进行了分级，为评估LMMs的数学推理能力提供了全面且多样的挑战。通过广泛的实验，我们揭示了当前LMMs在MATH-V上的表现与人类表现之间存在明显的差距，突显了进一步发展LMMs的必要性。此外，我们的详细分类允许对LMMs进行深入的错误分析，为未来的研发提供了宝贵的见解。该项目可在https://mathvision-cuhk.github.io 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Ke Wang; Junting Pan; Weikang Shi; Zimu Lu; Mingjie Zhan; Hongsheng Li

摘要

近期在大型多模态模型（LMMs）领域的进展显示，这些模型在视觉情境中的数学推理方面取得了令人鼓舞的结果，其性能在现有的基准测试如MathVista上已接近人类水平。然而，我们发现这些基准测试中问题的多样性和涵盖的主题范围存在显著局限。为了解决这一问题，我们推出了MATH-Vision（MATH-V）数据集，这是一套精心整理的包含3,040个高质量数学问题的数据集，这些问题均来源于真实的数学竞赛，并具有视觉情境。该数据集涵盖了16个不同的数学学科，并按5个难度等级进行了分级，为评估LMMs的数学推理能力提供了全面且多样的挑战。通过广泛的实验，我们揭示了当前LMMs在MATH-V上的表现与人类表现之间存在明显的差距，突显了进一步发展LMMs的必要性。此外，我们的详细分类允许对LMMs进行深入的错误分析，为未来的研发提供了宝贵的见解。该项目可在https://mathvision-cuhk.github.io 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供