Command Palette
Search for a command to run...
Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

要約
大規模言語モデル(LLM)エージェントの現行評価は、主にタスクの達成度に注目しており、リソース効率性や適応性といった側面を無視しがちである。この点は、エージェントが環境の変化に応じてコスト最適な計画を立案・調整する能力——すなわち、経済的合理性に基づく意思決定能力——という重要な機能を軽視している。このギャップを埋めるために、本研究では経済的推論力と再計画能力を評価するためのスケーラブルでコスト志向のベンチマーク「CostBench」を提案する。CostBenchは旅行計画というドメインに位置づけられ、複数の原子的・複合的ツールの組み合わせによって解けるタスクを含み、各ツールには多様でカスタマイズ可能なコストが設定されている。また、ツール障害やコスト変更など4種類の動的ブロッキングイベントをサポートしており、現実世界の不確実性を模倣し、エージェントがリアルタイムで適応を迫られる状況を再現する。CostBench上で最先端のオープンソースおよびプロプライエタリモデルを評価した結果、コストに配慮した計画立案における顕著な格差が明らかになった。静的環境下でもエージェントはコスト最適解を正しく識別できないことが多く、最も困難なタスクにおいてGPT-5ですら正確一致率が75%に満たず、動的条件下ではさらに約40%の性能低下が観察された。これらの弱みを診断することで、CostBenchは、経済的に合理的かつ耐障害性に優れた次世代エージェントの開発に向けた基盤を築くものである。