HyperAIHyperAI

Command Palette

Search for a command to run...

CostBench: 대상 도구 사용 LLM 에이전트를 위한 동적 환경에서의 다단계 비용 최적 계획 및 적응 평가

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

초록

현재 대규모 언어 모델(LLM) 에이전트에 대한 평가 대부분은 작업 완수 능력에 초점을 맞추고 있으며, 자원 효율성과 적응성은 종종 간과되고 있다. 이러한 무시는 에이전트가 환경 변화에 대응해 비용 최적의 계획을 수립하고 조정할 수 있는 능력이라는 핵심 역량을 간과하는 결과를 초래한다. 이 격차를 메우기 위해 우리는 경제적 사고와 재계획 능력을 평가할 수 있도록 설계된 확장 가능하고 비용 중심의 벤치마크인 CostBench를 제안한다. CostBench는 여행 계획 도메인에 위치하며, 다양한 원자적 도구와 복합 도구의 여러 순서로 해결 가능한 작업들로 구성되어 있으며, 각 도구는 다양하고 사용자 정의 가능한 비용을 가진다. 또한 도구 고장, 비용 변동 등 네 가지 유형의 동적 차단 이벤트를 지원하여 현실 세계의 예측 불가능성을 시뮬레이션하고, 에이전트가 실시간으로 적응할 수 있도록 유도한다. CostBench를 기반으로 주요 오픈소스 및 사적 모델을 평가한 결과, 비용 인지 계획 능력 측면에서 상당한 격차가 드러났다. 정적 환경에서도 에이전트는 비용 최적의 해를 식별하는 데 자주 실패하였으며, GPT-5조차도 가장 어려운 과제에서 정확도가 75% 미만에 그쳤고, 동적 환경에서는 성능이 약 40% 더 떨어지는 것으로 나타났다. 이러한 약점을 진단함으로써 CostBench는 향후 경제적으로 합리적이면서도 견고한 에이전트 개발을 위한 기반을 마련한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
CostBench: 대상 도구 사용 LLM 에이전트를 위한 동적 환경에서의 다단계 비용 최적 계획 및 적응 평가 | 문서 | HyperAI초신경