HyperAIHyperAI

Command Palette

Search for a command to run...

AutoHarness:通过自动合成代码桩提升 LLM Agents 性能

Xinghua Lou Miguel Lázaro-Gredilla Antoine Dedieu Carter Wendelken Wolfgang Lehrach Kevin P. Murphy

摘要

尽管近年来语言模型取得了显著进展,但当其作为智能体(Agent)使用时,往往倾向于执行在当前状态下不仅次优、甚至被外部环境严格禁止的操作。例如,在近期的 Kaggle GameArena 国际象棋竞赛中,Gemini-2.5-Flash 的 78% 失利可归因于非法移动。通常,人们会手动为 LLM 编写“约束器”(harnesses)以规避此类失败。本文证明,Gemini-2.5-Flash 能够利用来自(游戏)环境的反馈,通过少量轮次的迭代代码优化,自动合成此类代码约束器。该约束器在 145 款不同的 TextArena 游戏(涵盖单人与双人模式)中成功杜绝了所有非法移动,使得规模较小的 Gemini-2.5-Flash 模型能够超越 Gemini-2.5-Pro 等更大规模的模型。我们将该技术推至极限,使 Gemini-2.5-Flash 能够生成完整的代码化策略,从而在决策阶段完全无需调用 LLM。所生成的代码策略在 16 款 TextArena 单人游戏中的平均奖励高于 Gemini-2.5-Pro 和 GPT-5.2-High。结果表明,利用较小规模的模型合成定制化的代码约束器(或完整策略),不仅能超越规模大得多的模型,同时具备更高的成本效益。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供