Command Palette

Search for a command to run...

UserBenchベンチマーク

日付

10日前

組織

論文URL

2507.22034

UserBenchは、Salesforce AI Researchチームとイリノイ大学アーバナシャンペーン校によって2025年7月に共同で提案され、関連する研究成果は論文「UserBench: ユーザー中心のエージェントのためのインタラクティブなジム環境”。

UserBenchは、複数ターンにわたる嗜好主導型のインタラクションにおけるエージェントのパフォーマンスを評価するために設計された、ユーザー中心のベンチマークです。UserBenchでは、シミュレートされたユーザーが最初に漠然としたタスク指示を与え、時間の経過とともに徐々に、多くの場合は暗黙的に嗜好を明らかにしていきます。エージェントは、自らの目標を積極的に明確にし、微妙な手がかりを解釈し、適応型推論ツールを用いて成功する必要があります。標準のGymnasiumフレームワークを基盤とするUserBenchは、標準化されたインタラクションインターフェースと安定したツールバックエンドを備えたモジュール式でスケーラブルな構成を提供し、厳密かつ反復可能な評価を可能にします。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
UserBenchベンチマーク | 百科事典 | HyperAI超神経