12일 전

UserBench: 사용자 중심 에이전트를 위한 상호작용형 체육관 환경

Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
UserBench: 사용자 중심 에이전트를 위한 상호작용형 체육관 환경
초록

대규모 언어 모델(LLM) 기반 에이전트는 추론 및 도구 사용 능력에서 놀라운 발전을 이루며 복잡한 과제를 해결할 수 있게 되었다. 그러나 목표가 모호하거나 변화하는 경우, 또는 간접적으로 표현되는 상황에서 사용자와 능동적으로 협력할 수 있는 능력은 여전히 탐색이 부족한 분야다. 이 격차를 보완하기 위해, 우리는 다단계 상호작용과 사용자 선호도 기반의 상호작용을 평가할 수 있도록 설계된 사용자 중심의 벤치마크인 UserBench를 제안한다. UserBench는 초기에 명확하지 않은 목표를 가진 시뮬레이션 사용자들을 포함하고 있으며, 사용자는 점진적으로 선호도를 드러내는 방식으로 상호작용한다. 이에 따라 에이전트는 사용자의 의도를 능동적으로 명확히 하고, 도구를 활용해 근거 있는 결정을 내려야 한다. 주요 오픈소스 및 폐쇄소스 LLM 모델들을 대상으로 한 평가 결과는, 과제 완수 능력과 사용자와의 일치도 사이에 큰 괴리가 존재함을 보여준다. 예를 들어, 모델들이 사용자의 모든 의도와 완전히 일치하는 답변을 제공하는 경우는 평균적으로 20%에 불과하며, 가장 고도화된 모델조차 능동적 상호작용을 통해 전체 사용자 선호도의 30% 미만을 발견하는 것으로 나타났다. 이러한 결과는 단순히 과제를 수행할 수 있는 에이전트를 넘어서, 진정한 협업 파트너로서의 역량을 갖춘 에이전트를 구축하는 데 직면한 도전 과제를 강조한다. UserBench는 이러한 핵심 능력을 측정하고 발전시킬 수 있는 상호작용 환경을 제공한다.