摘要

大语言模型（Large language models）正越来越多地作为自主 Agent，在真实的软件环境中执行多步骤的工作流（workflows）。然而，现有的 Agent benchmark 存在三个关键局限性：(1) 轨迹不透明的评分机制（trajectory-opaque grading），仅检查最终输出；(2) 安全性与鲁棒性（robustness）评估定义不足；(3) 模态覆盖范围窄且交互范式单一。为此，我们推出了 Claw-Eval，这是一个旨在填补上述三大空白的端到端评估套件。它包含 300 个经人工验证的任务，涵盖三个组别的 9 个类别（通用服务编排、多模态感知与生成，以及多轮专业对话）。每一个 Agent 的动作都会通过三个独立的证据通道进行记录（执行轨迹、审计日志和环境快照），从而能够基于 2,159 个细粒度的评分项进行轨迹感知的评分（trajectory-aware grading）。该评分协议旨在评估完成度（Completion）、安全性（Safety）和鲁棒性（Robustness），并通过报告三次试验的平均分、Pass@k 和 Pass^k，以区分真正的能力与偶然的幸运结果。对 14 个前沿模型的实验表明：(1) 轨迹不透明的评估具有系统性的不可靠性，漏掉了我们混合 pipeline 能够捕捉到的 44% 的安全性违规和 13% 的鲁棒性失败；(2) 受控的错误注入主要降低了模型的一致性而非峰值能力，表现为 Pass^3 下降高达 24%，而 Pass@3 保持稳定；(3) 多模态性能差异显著，大多数模型在视频任务上的表现逊于文档或图像任务，且没有单一模型能在所有模态上占据统治地位。除了提供 benchmark，Claw-Eval 还为 Agent 的开发指明了具有操作性的方向，阐明了构建不仅具备能力、而且具备可靠部署能力的 Agent 所需具备的条件。

源 PDF 查看代码