推理健身房：具有可验证奖励的强化学习推理环境

Stojanovski, Zafir ; Stanley, Oliver ; Sharratt, Joe ; Jones, Richard ; Adefioye, Abdulhakeem ; Kaddour, Jean ; Köpf, Andreas

发布日期: 6/3/2025

摘要

我们介绍了Reasoning Gym（RG），这是一个用于具有可验证奖励的强化学习的推理环境库。该库提供了超过100种数据生成器和验证器，涵盖多个领域，包括代数、算术、计算、认知、几何、图论、逻辑以及各种常见的游戏。其关键创新在于能够生成几乎无限的训练数据，并且复杂度可调，这与大多数先前的推理数据集通常固定不变的情况不同。这种过程生成方法使得在不同难度级别上进行连续评估成为可能。我们的实验结果表明，RG在评估和强化学习推理模型方面具有显著的效果。

查看论文详情