Agent = Model + Harness:核心公式解析
近期一项关于大语言模型智能体的研究指出,智能体的实际表现不仅取决于底层模型,更关键的是管理上下文、工具、状态及容错的“套层”(Harness)架构。研究提出的核心公式为“智能体 = 模型 + 套层”,并建立了Harness-Bench基准进行测试。 测试涉及106项沙盒任务、8种模型后端和6种不同套层配置。结果显示,在固定模型的情况下,仅更换套层架构,智能体得分波动高达23.8分。例如,轻量级架构NanoBot得分76.2,而结构复杂的Hermes仅得52.4。这表明套层设计对性能影响巨大。 深入分析失败案例发现,绝大多数错误并非源于模型推理能力不足,而是执行层面的“账目管理”问题。36.4%的失败是因为格式违规或缺少数据记录,24.6%是工具调用后缺乏错误恢复。这意味着模型往往理解了任务,却未能将思考结果转化为环境可验证的实体。研究将其定义为“执行对齐”问题,即套层负责维持意图与可验证完成结果之间的一致性,充当连接思考与现实的桥梁。 有趣的是,套层的重要性随模型能力提升而递减。弱模型高度依赖套层来弥补智能缺陷,而强模型则能容忍套层差异,表现出更强的鲁棒性。此外,实验证明“精简优于繁复”。轻量级的NanoBot在高效完成 fewer 步骤的同时击败了功能更多但资源消耗巨大的Hermes。 该研究挑战了以往单纯堆砌工具或提升模型参数的思路,强调构建能维持逻辑闭环的轻量级套层至关重要。对于开发者而言,关键在于设计能在模型成熟前有效支撑运行,并随模型进化保持价值的架构,而非仅仅依赖模型本身或过度复杂的中间件。
