HyperAIHyperAI

Command Palette

Search for a command to run...

UserBenchベンチマーク

Date

2ヶ月前

Organization

Paper URL

2507.22034

UserBenchは、Salesforce AI Researchチームとイリノイ大学アーバナシャンペーン校によって2025年7月に共同で提案され、関連する研究成果は論文「UserBench: ユーザー中心のエージェントのためのインタラクティブなジム環境”。

UserBenchは、複数ターンにわたる嗜好主導型のインタラクションにおけるエージェントのパフォーマンスを評価するために設計された、ユーザー中心のベンチマークです。UserBenchでは、シミュレートされたユーザーが最初に漠然としたタスク指示を与え、時間の経過とともに徐々に、多くの場合は暗黙的に嗜好を明らかにしていきます。エージェントは、自らの目標を積極的に明確にし、微妙な手がかりを解釈し、適応型推論ツールを用いて成功する必要があります。標準のGymnasiumフレームワークを基盤とするUserBenchは、標準化されたインタラクションインターフェースと安定したツールバックエンドを備えたモジュール式でスケーラブルな構成を提供し、厳密かつ反復可能な評価を可能にします。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています