Command Palette

Search for a command to run...

17日前

CostBench:大規模言語モデルのツール利用エージェントにおける動的環境下での多ターンにわたるコスト最適な計画と適応の評価

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

CostBench:大規模言語モデルのツール利用エージェントにおける動的環境下での多ターンにわたるコスト最適な計画と適応の評価

要約

大規模言語モデル(LLM)エージェントの現行評価は、主にタスクの達成度に注目しており、リソース効率性や適応性といった側面を無視しがちである。この点は、エージェントが環境の変化に応じてコスト最適な計画を立案・調整する能力——すなわち、経済的合理性に基づく意思決定能力——という重要な機能を軽視している。このギャップを埋めるために、本研究では経済的推論力と再計画能力を評価するためのスケーラブルでコスト志向のベンチマーク「CostBench」を提案する。CostBenchは旅行計画というドメインに位置づけられ、複数の原子的・複合的ツールの組み合わせによって解けるタスクを含み、各ツールには多様でカスタマイズ可能なコストが設定されている。また、ツール障害やコスト変更など4種類の動的ブロッキングイベントをサポートしており、現実世界の不確実性を模倣し、エージェントがリアルタイムで適応を迫られる状況を再現する。CostBench上で最先端のオープンソースおよびプロプライエタリモデルを評価した結果、コストに配慮した計画立案における顕著な格差が明らかになった。静的環境下でもエージェントはコスト最適解を正しく識別できないことが多く、最も困難なタスクにおいてGPT-5ですら正確一致率が75%に満たず、動的条件下ではさらに約40%の性能低下が観察された。これらの弱みを診断することで、CostBenchは、経済的に合理的かつ耐障害性に優れた次世代エージェントの開発に向けた基盤を築くものである。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CostBench:大規模言語モデルのツール利用エージェントにおける動的環境下での多ターンにわたるコスト最適な計画と適応の評価 | 論文 | HyperAI超神経