Command Palette
Search for a command to run...
Yue Xin Wenyuan Wang Rui Pan Ruida Wang Howard Meng et al

摘要
多模态大语言模型在诸多实际应用中展现出广泛潜力,这些应用往往需要强大的推理能力。尽管近年来取得了显著进展,这类模型在解决复杂几何问题方面仍面临挑战。其中一个重要瓶颈在于缺乏高质量的图像-文本配对数据集,以支持对几何图像的理解。此外,大多数基于模板的数据合成流程通常难以泛化到超出预设模板范围的问题。本文通过在数据生成流程中引入一种互补的强化学习机制——可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR),有效弥补了这一差距。我们利用RLVR对由50种基础几何关系生成的几何图像进行caption优化,并采用源自数学问题求解任务的奖励信号进行引导,从而成功捕捉到了几何问题求解的核心特征。该方法显著提升了任务的泛化能力,并带来了非平凡的性能提升。此外,在分布外(out-of-distribution)场景下,所生成的数据集仍能有效增强多模态大语言模型的通用推理能力:在MathVista与MathVerse数据集上,针对非几何输入图像的统计、算术、代数和数值类任务,模型准确率提升了2.8%至4.8%;在MMMU数据集的艺术、设计、技术与工程类任务中,准确率亦实现了2.4%至3.9%的提升。