3 小时前

摘要

尽管近年来语言模型取得了显著进展，但当其作为智能体（Agent）使用时，往往倾向于执行在当前状态下不仅次优、甚至被外部环境严格禁止的操作。例如，在近期的 Kaggle GameArena 国际象棋竞赛中，Gemini-2.5-Flash 的 78% 失利可归因于非法移动。通常，人们会手动为 LLM 编写“约束器”（harnesses）以规避此类失败。本文证明，Gemini-2.5-Flash 能够利用来自（游戏）环境的反馈，通过少量轮次的迭代代码优化，自动合成此类代码约束器。该约束器在 145 款不同的 TextArena 游戏（涵盖单人与双人模式）中成功杜绝了所有非法移动，使得规模较小的 Gemini-2.5-Flash 模型能够超越 Gemini-2.5-Pro 等更大规模的模型。我们将该技术推至极限，使 Gemini-2.5-Flash 能够生成完整的代码化策略，从而在决策阶段完全无需调用 LLM。所生成的代码策略在 16 款 TextArena 单人游戏中的平均奖励高于 Gemini-2.5-Pro 和 GPT-5.2-High。结果表明，利用较小规模的模型合成定制化的代码约束器（或完整策略），不仅能超越规模大得多的模型，同时具备更高的成本效益。

源 PDF