초록

현재 대규모 언어 모델(LLM) 에이전트에 대한 평가 대부분은 작업 완수 능력에 초점을 맞추고 있으며, 자원 효율성과 적응성은 종종 간과되고 있다. 이러한 무시는 에이전트가 환경 변화에 대응해 비용 최적의 계획을 수립하고 조정할 수 있는 능력이라는 핵심 역량을 간과하는 결과를 초래한다. 이 격차를 메우기 위해 우리는 경제적 사고와 재계획 능력을 평가할 수 있도록 설계된 확장 가능하고 비용 중심의 벤치마크인 CostBench를 제안한다. CostBench는 여행 계획 도메인에 위치하며, 다양한 원자적 도구와 복합 도구의 여러 순서로 해결 가능한 작업들로 구성되어 있으며, 각 도구는 다양하고 사용자 정의 가능한 비용을 가진다. 또한 도구 고장, 비용 변동 등 네 가지 유형의 동적 차단 이벤트를 지원하여 현실 세계의 예측 불가능성을 시뮬레이션하고, 에이전트가 실시간으로 적응할 수 있도록 유도한다. CostBench를 기반으로 주요 오픈소스 및 사적 모델을 평가한 결과, 비용 인지 계획 능력 측면에서 상당한 격차가 드러났다. 정적 환경에서도 에이전트는 비용 최적의 해를 식별하는 데 자주 실패하였으며, GPT-5조차도 가장 어려운 과제에서 정확도가 75% 미만에 그쳤고, 동적 환경에서는 성능이 약 40% 더 떨어지는 것으로 나타났다. 이러한 약점을 진단함으로써 CostBench는 향후 경제적으로 합리적이면서도 견고한 에이전트 개발을 위한 기반을 마련한다.

소스 PDF