Command Palette
Search for a command to run...
Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

초록
현재 대규모 언어 모델(LLM) 에이전트에 대한 평가 대부분은 작업 완수 능력에 초점을 맞추고 있으며, 자원 효율성과 적응성은 종종 간과되고 있다. 이러한 무시는 에이전트가 환경 변화에 대응해 비용 최적의 계획을 수립하고 조정할 수 있는 능력이라는 핵심 역량을 간과하는 결과를 초래한다. 이 격차를 메우기 위해 우리는 경제적 사고와 재계획 능력을 평가할 수 있도록 설계된 확장 가능하고 비용 중심의 벤치마크인 CostBench를 제안한다. CostBench는 여행 계획 도메인에 위치하며, 다양한 원자적 도구와 복합 도구의 여러 순서로 해결 가능한 작업들로 구성되어 있으며, 각 도구는 다양하고 사용자 정의 가능한 비용을 가진다. 또한 도구 고장, 비용 변동 등 네 가지 유형의 동적 차단 이벤트를 지원하여 현실 세계의 예측 불가능성을 시뮬레이션하고, 에이전트가 실시간으로 적응할 수 있도록 유도한다. CostBench를 기반으로 주요 오픈소스 및 사적 모델을 평가한 결과, 비용 인지 계획 능력 측면에서 상당한 격차가 드러났다. 정적 환경에서도 에이전트는 비용 최적의 해를 식별하는 데 자주 실패하였으며, GPT-5조차도 가장 어려운 과제에서 정확도가 75% 미만에 그쳤고, 동적 환경에서는 성능이 약 40% 더 떨어지는 것으로 나타났다. 이러한 약점을 진단함으로써 CostBench는 향후 경제적으로 합리적이면서도 견고한 에이전트 개발을 위한 기반을 마련한다.