Command Palette
Search for a command to run...
Claw-Eval 실세계 벤치마크 데이터셋
Claw-Eval은 실제 작업에서 AI 에이전트를 평가하기 위한 투명한 엔드투엔드 평가 벤치마크 데이터셋으로, 2026년 베이징대학교와 홍콩대학교가 공동으로 발표했습니다. 관련 연구 논문은 다음과 같습니다. Claw-Eval: 자율 에이전트의 신뢰할 수 있는 평가를 향하여이 방법은 자율 지능형 에이전트가 작업을 수행하고, 도구를 호출하고, 다중 모드 현상을 이해하고, 실제 환경에서 상호 작용하는 능력을 평가하는 것을 목표로 합니다. 에이전트 시스템 평가, 자동화된 작업 실행, 다중 모드 지능형 에이전트 연구 및 대규모 모델 기능 분석에 널리 사용됩니다. 이 데이터 세트는 영어와 중국어를 모두 지원하며, 일반, 멀티모달, 멀티턴의 세 가지 핵심 작업 그룹을 포함하여 커뮤니케이션, 금융, 사무, 생산성 도구 등 총 24개의 작업 범주를 포괄합니다.
데이터셋 구성:
- 일반: 통신, 재무, 운영 및 사무 생산성을 포함한 24개 범주에 걸쳐 161개의 핵심 상담원 업무를 포함합니다.
- 멀티모달: 웹페이지 생성, 비디오 질의응답, 문서 정보 추출 등 101가지 멀티모달 에이전트 작업을 포함합니다.
- 다단계 대화: 이 섹션에는 에이전트가 시뮬레이션된 사용자와 여러 차례 상호 작용하여 요구 사항을 명확히 하고 제안을 생성해야 하는 38개의 다단계 대화 작업이 포함되어 있습니다.
데이터 필드:
- task_id: 작업에 대한 고유 식별자
- 쿼리: 작업 지침 또는 작업 설명
- 픽스처: 작업에 필요한 보조 파일 목록
- 언어: 작업 언어
- 범주: 작업이 속하는 도메인 또는 범주
소환
@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}