Command Palette
Search for a command to run...

摘要
大型语言模型(LLMs)的训练范式正从静态数据集转向基于经验的学习,即智能体通过与复杂环境的交互来习得技能。为推动这一转型,我们提出了 GEM(General Experience Maker),一个专为大语言模型时代设计的开源环境模拟器。GEM 在功能上类似于传统强化学习(RL)中的 OpenAI Gym,为环境与智能体之间的交互提供标准化框架,支持异步向量化执行以实现高吞吐量,并配备灵活的封装工具以方便扩展。GEM 还包含多样化的环境集合、强大的集成工具,以及单文件示例脚本,展示了如何与五种主流强化学习训练框架结合使用。此外,我们基于 REINFORCE 算法结合回报批量归一化(Return Batch Normalization, ReBN)构建了一套涵盖 24 个环境的基准测试,该方法——与 GRPO 不同——兼容密集的每轮奖励设置,并在信用分配方面表现更优。我们进一步利用 GEM 在单轮与多轮场景下对 PPO、GRPO 和 REINFORCE 进行了公平的对比评估,以深入揭示各类算法的设计特性。最后,GEM 不仅可作为训练环境,还可作为便捷的评估工具。我们期望该框架能推动未来智能体式大语言模型研究的快速发展。