6일 전
엄격한 주체적 벤치마크 구축을 위한 최선의 실천 방법 설정
Yuxuan Zhu, Tengjun Jin, Yada Pruksachatkun, Andy Zhang, Shu Liu, Sasha Cui, Sayash Kapoor, Shayne Longpreet al

초록
벤치마크는 AI의 정량적 진전을 추적하는 데 필수적입니다. AI 에이전트가 점점 더 강력해짐에 따라 연구자와 실무자들은 복잡한 실제 작업을 평가하기 위한 에이전틱 벤치마크를 도입하였습니다. 이러한 벤치마크는 일반적으로 특정 보상 설계를 통해 작업 결과를 평가하여 에이전트의 능력을 측정합니다. 그러나 우리는 많은 에이전틱 벤치마크가 작업 설정이나 보상 설계에 문제가 있음을 보여주었습니다. 예를 들어, SWE-bench Verified는 충분하지 않은 테스트 사례를 사용하며, TAU-bench는 비어 있는 응답을 성공으로 간주합니다. 이러한 문제들은 상대적으로 에이전트의 성능을 최대 100%까지 과소평가하거나 과대평가할 수 있습니다. 에이전틱 평가를 엄밀하게 하기 위해, 우리는 벤치마크 구축 경험, 최선의 관행 조사, 그리고 이전에 보고된 문제들을 종합하여 '에이전틱 벤치마크 체크리스트 (ABC)'를 소개합니다. ABC는 특히 복잡한 평가 설계를 가진 CVE-Bench에 적용될 때, 성능 과대평가를 33% 줄이는 효과가 있습니다.