HyperAI超神经

MathCoder-VL:融合视觉与代码,提升多模态数学推理能力

Ke Wang, Junting Pan, Linda Wei,Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao,Yunqiao Yang,Houxing Ren, Mingjie Zhan, Hongsheng Li
发布日期: 5/16/2025
MathCoder-VL:融合视觉与代码,提升多模态数学推理能力
摘要

自然语言图文数据集被广泛用于训练大型多模态模型(LMMs),但这类数据集主要聚焦于自然场景,忽视了数学图形中对问题求解至关重要的复杂细节,从而阻碍了当前模型在多模态数学推理方面的进展。 为此,我们提出利用代码作为监督信号进行跨模态对齐,因为代码本身就包含了生成对应图形所需的全部信息,能够在视觉与语言两种模态之间建立精确连接。具体而言,我们采用“模型参与式开发”(model-in-the-loop)的方法,共同构建了图像转代码模型 FigCodifier 及其配套数据集 ImgCode-8.6M,这是目前规模最大的图像-代码数据集。进一步地,我们利用 FigCodifier 生成新的数学图形,并据此构建了 MM-MathInstruct-3M,一个高质量的多模态数学指令微调数据集。最终,我们推出了 MathCoder-VL 模型:首先通过 ImgCode-8.6M 完成跨模态对齐预训练,随后在 MM-MathInstruct-3M 上进行多模态数学问题求解微调。该模型在全部六项评估指标上都达到了新的开源 SOTA(最先进)性能。尤其在 MathVista 几何问题子集上,超越了 GPT-4o 和 Claude 3.5 Sonnet,分别提升了 8.9% 和 9.2% 的表现。