12日前

UserBench:ユーザ中心型エージェント向けインタラクティブジム環境

Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
UserBench:ユーザ中心型エージェント向けインタラクティブジム環境
要約

大規模言語モデル(LLM)を基盤とするエージェントは、推論能力およびツール利用能力において顕著な進展を遂げており、複雑なタスクの解決が可能になっています。しかし、目標が曖昧である、変化する、あるいは間接的に表現されるような状況において、ユーザーと能動的に協働する能力については、まだ十分に検討されていません。この課題を解決するため、本研究では、複数ターンにわたる、ユーザーの好みに従う対話におけるエージェントの性能を評価することを目的とした、ユーザー中心のベンチマーク「UserBench」を提案します。UserBenchは、初期段階では不十分に定義された目標を持ち、段階的に好みを明らかにしていくシミュレートされたユーザーを備えており、エージェントが意図の明確化を能動的に行い、ツールを用いて根拠に基づいた意思決定を下すことを求めます。最先端のオープンソースおよびクローズドソースLLMを対象とした評価の結果、タスクの完了率とユーザーとの整合性の間に大きな乖離が生じていることが明らかになりました。例えば、モデルがユーザーのすべての意図に完全に一致する回答を提示するのは、平均で20%にとどまり、最も進んだモデルですら、積極的な対話によってすべてのユーザーの好みを明らかにできる割合は30%を下回っています。これらの結果は、単なるタスク実行者としての能力にとどまらず、真の協働パートナーとしての役割を果たすエージェントを構築する上で直面する課題を浮き彫りにしています。UserBenchは、この重要な能力を測定し、さらに進展させるためのインタラクティブな環境を提供します。