HyperAI超神经

TTRL:测试时强化学习

Yuxin Zuo, Kaiyan Zhang, Shang Qu, Li Sheng, Xuekai Zhu, Biqing Qi, Youbang Sun, Ganqu Cui, Ning Ding, Bowen Zhou
发布日期: 4/23/2025
TTRL:测试时强化学习
摘要

本文研究了在大型语言模型(LLMs)中进行推理任务时,利用无显式标签的数据进行强化学习(RL)。该问题的核心挑战是在推理过程中进行奖励估计,而无法访问真实标签信息。尽管这种设置看似难以实现,但我们发现测试时间缩放(Test-Time Scaling, TTS)中的常见做法,如多数投票,能够产生令人惊讶的有效奖励,适用于驱动RL训练。在这项工作中,我们引入了一种新的方法——测试时间强化学习(Test-Time Reinforcement Learning, TTRL),用于在无标签数据上训练LLMs。TTRL通过利用预训练模型中的先验知识,实现了LLMs的自我进化。我们的实验结果表明,TTRL在多种任务和模型上均能持续提升性能。特别是,在仅使用无标签测试数据的情况下,TTRL将Qwen-2.5-Math-7B在AIME 2024上的pass@1性能提升了约159%。此外,尽管TTRL仅由Maj@N指标监督,但其表现已持续超越初始模型的上限,并接近直接使用带有真实标签的测试数据训练的模型的性能。我们的实验结果验证了TTRL在各种任务中的普遍有效性,并突显了其在更广泛的任务和领域中的潜力。GitHub地址:https://github.com/PRIME-RL/TTRL