Command Palette

Search for a command to run...

UserBench 벤치마크

날짜

10일 전

기관

논문 URL

2507.22034

UserBench는 2025년 7월 Salesforce AI 연구팀과 일리노이 대학교 어바나-샴페인 캠퍼스에서 공동으로 제안되었으며, 관련 연구 결과는 논문 "UserBench: 사용자 중심 에이전트를 위한 대화형 체육관 환경".

UserBench는 여러 차례 선호도 기반 상호작용에서 에이전트의 성과를 평가하도록 설계된 사용자 중심 벤치마크입니다. UserBench에서 시뮬레이션된 사용자는 처음에는 모호한 작업 지침을 제공하지만, 시간이 지남에 따라 선호도를 점진적으로 드러내는 경우가 많으며, 이는 암묵적으로도 나타납니다. 에이전트는 목표를 적극적으로 명확히 하고, 미묘한 단서를 해석하며, 적응형 추론 도구를 통해 성공을 거두어야 합니다. 표준 Gymnasium 프레임워크를 기반으로 구축된 UserBench는 표준화된 상호작용 인터페이스와 안정적인 도구 백엔드를 갖춘 모듈식 확장 가능 설정을 제공하여 엄격하고 반복 가능한 평가를 가능하게 합니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
UserBench 벤치마크 | 백과사전 | HyperAI초신경