HyperAI超神经

推理健身房:具有可验证奖励的强化学习推理环境

Stojanovski, Zafir ; Stanley, Oliver ; Sharratt, Joe ; Jones, Richard ; Adefioye, Abdulhakeem ; Kaddour, Jean ; Köpf, Andreas
发布日期: 6/3/2025
推理健身房:具有可验证奖励的强化学习推理环境
摘要

我们介绍了Reasoning Gym(RG),这是一个用于具有可验证奖励的强化学习的推理环境库。该库提供了超过100种数据生成器和验证器,涵盖多个领域,包括代数、算术、计算、认知、几何、图论、逻辑以及各种常见的游戏。其关键创新在于能够生成几乎无限的训练数据,并且复杂度可调,这与大多数先前的推理数据集通常固定不变的情况不同。这种过程生成方法使得在不同难度级别上进行连续评估成为可能。我们的实验结果表明,RG在评估和强化学习推理模型方面具有显著的效果。