@article{ye2026claw, title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents}, author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others}, journal={arXiv preprint arXiv:2604.06132}, year={2026} }

날짜

2달 전

조직

Paper URL

2604.06132

라이선스

MIT

태그

다중모달

기준

에이전트

Claw-Eval은 실제 작업에서 AI 에이전트를 평가하기 위한 투명한 엔드투엔드 평가 벤치마크 데이터셋으로, 2026년 베이징대학교와 홍콩대학교가 공동으로 발표했습니다. 관련 연구 논문은 다음과 같습니다. Claw-Eval: 자율 에이전트의 신뢰할 수 있는 평가를 향하여이 방법은 자율 지능형 에이전트가 작업을 수행하고, 도구를 호출하고, 다중 모드 현상을 이해하고, 실제 환경에서 상호 작용하는 능력을 평가하는 것을 목표로 합니다. 에이전트 시스템 평가, 자동화된 작업 실행, 다중 모드 지능형 에이전트 연구 및 대규모 모델 기능 분석에 널리 사용됩니다. 이 데이터 세트는 영어와 중국어를 모두 지원하며, 일반, 멀티모달, 멀티턴의 세 가지 핵심 작업 그룹을 포함하여 커뮤니케이션, 금융, 사무, 생산성 도구 등 총 24개의 작업 범주를 포괄합니다.

데이터셋 구성:

일반: 통신, 재무, 운영 및 사무 생산성을 포함한 24개 범주에 걸쳐 161개의 핵심 상담원 업무를 포함합니다.
멀티모달: 웹페이지 생성, 비디오 질의응답, 문서 정보 추출 등 101가지 멀티모달 에이전트 작업을 포함합니다.
다단계 대화: 이 섹션에는 에이전트가 시뮬레이션된 사용자와 여러 차례 상호 작용하여 요구 사항을 명확히 하고 제안을 생성해야 하는 38개의 다단계 대화 작업이 포함되어 있습니다.

데이터 필드:

task_id: 작업에 대한 고유 식별자
쿼리: 작업 지침 또는 작업 설명
픽스처: 작업에 필요한 보조 파일 목록
언어: 작업 언어
범주: 작업이 속하는 도메인 또는 범주

소환

@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

Command Palette

Claw-Eval 실세계 벤치마크 데이터셋

데이터셋 구성:

데이터 필드:

소환

AI로 AI 구축

HyperAI Newsletters

Command Palette

Claw-Eval 실세계 벤치마크 데이터셋

데이터셋 구성:

데이터 필드:

소환

undefined

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

VisCoR-55K 시각적 추론 데이터셋

AgentTrove 지능형 에이전트 상호작용 궤적 데이터 세트

LongBlocks 장문 컨텍스트 다국어 질문 답변 데이터셋

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

안저 질환 분류 데이터 세트

장거리 산불 및 연기 감지 데이터 세트

QCalEval 양자 교정 그래프 이해 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

PanScale 원격 감지 팬컬러 선명도 향상 데이터 세트

ParseBench 문서 구문 분석 기능 평가 데이터 세트

OpenMementos 컨텍스트 메모리 압축 데이터 세트

MIA 다단계 추론 및 결정 궤적 데이터셋

OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

MDPBench 다국어 문서 구문 분석 벤치마크 데이터셋

AI로 AI 구축

HyperAI Newsletters

Command Palette

Claw-Eval 실세계 벤치마크 데이터셋

데이터셋 구성:

데이터 필드:

소환

undefined

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

VisCoR-55K 시각적 추론 데이터셋

AgentTrove 지능형 에이전트 상호작용 궤적 데이터 세트

LongBlocks 장문 컨텍스트 다국어 질문 답변 데이터셋

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

안저 질환 분류 데이터 세트

장거리 산불 및 연기 감지 데이터 세트

QCalEval 양자 교정 그래프 이해 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

PanScale 원격 감지 팬컬러 선명도 향상 데이터 세트

ParseBench 문서 구문 분석 기능 평가 데이터 세트

OpenMementos 컨텍스트 메모리 압축 데이터 세트

MIA 다단계 추론 및 결정 궤적 데이터셋

OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

MDPBench 다국어 문서 구문 분석 벤치마크 데이터셋

AI로 AI 구축

HyperAI Newsletters

undefined

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

VisCoR-55K 시각적 추론 데이터셋

AgentTrove 지능형 에이전트 상호작용 궤적 데이터 세트

LongBlocks 장문 컨텍스트 다국어 질문 답변 데이터셋

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

안저 질환 분류 데이터 세트

장거리 산불 및 연기 감지 데이터 세트

QCalEval 양자 교정 그래프 이해 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

PanScale 원격 감지 팬컬러 선명도 향상 데이터 세트

ParseBench 문서 구문 분석 기능 평가 데이터 세트

OpenMementos 컨텍스트 메모리 압축 데이터 세트

MIA 다단계 추론 및 결정 궤적 데이터셋

OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

MDPBench 다국어 문서 구문 분석 벤치마크 데이터셋

undefined

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

VisCoR-55K 시각적 추론 데이터셋

AgentTrove 지능형 에이전트 상호작용 궤적 데이터 세트

LongBlocks 장문 컨텍스트 다국어 질문 답변 데이터셋

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

안저 질환 분류 데이터 세트

장거리 산불 및 연기 감지 데이터 세트

QCalEval 양자 교정 그래프 이해 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

PanScale 원격 감지 팬컬러 선명도 향상 데이터 세트