Command Palette
Search for a command to run...
UserBenchベンチマーク
UserBenchは、Salesforce AI Researchチームとイリノイ大学アーバナシャンペーン校によって2025年7月に共同で提案され、関連する研究成果は論文「UserBench: ユーザー中心のエージェントのためのインタラクティブなジム環境”。
UserBenchは、複数ターンにわたる嗜好主導型のインタラクションにおけるエージェントのパフォーマンスを評価するために設計された、ユーザー中心のベンチマークです。UserBenchでは、シミュレートされたユーザーが最初に漠然としたタスク指示を与え、時間の経過とともに徐々に、多くの場合は暗黙的に嗜好を明らかにしていきます。エージェントは、自らの目標を積極的に明確にし、微妙な手がかりを解釈し、適応型推論ツールを用いて成功する必要があります。標準のGymnasiumフレームワークを基盤とするUserBenchは、標準化されたインタラクションインターフェースと安定したツールバックエンドを備えたモジュール式でスケーラブルな構成を提供し、厳密かつ反復可能な評価を可能にします。