HyperAIHyperAI

Command Palette

Search for a command to run...

Claw-Eval:迈向自主 Agent 的可信评估

摘要

大语言模型(Large language models)正越来越多地作为自主 Agent,在真实的软件环境中执行多步骤的工作流(workflows)。然而,现有的 Agent benchmark 存在三个关键局限性:(1) 轨迹不透明的评分机制(trajectory-opaque grading),仅检查最终输出;(2) 安全性与鲁棒性(robustness)评估定义不足;(3) 模态覆盖范围窄且交互范式单一。为此,我们推出了 Claw-Eval,这是一个旨在填补上述三大空白的端到端评估套件。它包含 300 个经人工验证的任务,涵盖三个组别的 9 个类别(通用服务编排、多模态感知与生成,以及多轮专业对话)。每一个 Agent 的动作都会通过三个独立的证据通道进行记录(执行轨迹、审计日志和环境快照),从而能够基于 2,159 个细粒度的评分项进行轨迹感知的评分(trajectory-aware grading)。该评分协议旨在评估完成度(Completion)、安全性(Safety)和鲁棒性(Robustness),并通过报告三次试验的平均分、Pass@k 和 Pass^k,以区分真正的能力与偶然的幸运结果。对 14 个前沿模型的实验表明:(1) 轨迹不透明的评估具有系统性的不可靠性,漏掉了我们混合 pipeline 能够捕捉到的 44% 的安全性违规和 13% 的鲁棒性失败;(2) 受控的错误注入主要降低了模型的一致性而非峰值能力,表现为 Pass^3 下降高达 24%,而 Pass@3 保持稳定;(3) 多模态性能差异显著,大多数模型在视频任务上的表现逊于文档或图像任务,且没有单一模型能在所有模态上占据统治地位。除了提供 benchmark,Claw-Eval 还为 Agent 的开发指明了具有操作性的方向,阐明了构建不仅具备能力、而且具备可靠部署能力的 Agent 所需具备的条件。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供