Command Palette
Search for a command to run...
UserBench 벤치마크
UserBench는 2025년 7월 Salesforce AI 연구팀과 일리노이 대학교 어바나-샴페인 캠퍼스에서 공동으로 제안되었으며, 관련 연구 결과는 논문 "UserBench: 사용자 중심 에이전트를 위한 대화형 체육관 환경".
UserBench는 여러 차례 선호도 기반 상호작용에서 에이전트의 성과를 평가하도록 설계된 사용자 중심 벤치마크입니다. UserBench에서 시뮬레이션된 사용자는 처음에는 모호한 작업 지침을 제공하지만, 시간이 지남에 따라 선호도를 점진적으로 드러내는 경우가 많으며, 이는 암묵적으로도 나타납니다. 에이전트는 목표를 적극적으로 명확히 하고, 미묘한 단서를 해석하며, 적응형 추론 도구를 통해 성공을 거두어야 합니다. 표준 Gymnasium 프레임워크를 기반으로 구축된 UserBench는 표준화된 상호작용 인터페이스와 안정적인 도구 백엔드를 갖춘 모듈식 확장 가능 설정을 제공하여 엄격하고 반복 가능한 평가를 가능하게 합니다.