1 个月前
推理还是记忆?强化学习因数据污染而产生的不可靠结果
Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang

摘要
大型语言模型(LLMs)的推理能力一直是研究的重点。近期的研究通过强化学习(RL)进一步提升了这些能力,许多新方法声称在几乎没有外部监督的情况下取得了显著改进。令人惊讶的是,一些研究表明,随机或错误的奖励信号甚至可以增强推理性能。然而,这些突破主要是在Qwen2.5模型家族上报告的,并在MATH-500、AMC和AIME等知名基准测试中进行了评估,而在其他模型如Llama上未能实现类似的提升,这需要进一步调查。我们的分析表明,尽管Qwen2.5在数学推理方面表现出色,但其在大规模网络语料库上的预训练使其在流行基准测试中容易受到数据污染的影响。因此,从这些基准测试得出的结果可能是不可靠的。为了解决这一问题,我们引入了一个生成器,该生成器可以生成任意长度和难度的完全合成算术问题,从而产生一个我们称为RandomCalculation的干净数据集。利用这些无泄漏的数据集,我们证明只有准确的奖励信号能够持续提升性能,而噪声或错误的信号则不能。我们倡导在未受污染的基准测试和不同模型家族上评估RL方法,以确保结论的可信度。