12日前

WideSearch:エージェントによる広範な情報探索のベンチマーク

Ryan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang
WideSearch:エージェントによる広範な情報探索のベンチマーク
要約

プロフェッショナルな研究から日常的な計画まで、多くのタスクは広範囲な情報収集というプロセスによってボトルネックとなっている。この情報収集作業は、認知的な複雑さよりも反復的な性質が強く、人間にとって煩雑な作業である。近年、大規模言語モデル(LLM)の急速な発展に伴い、LLMを活用した自動検索エージェントが、こうした繰り返し作業から人間を解放する有望な解決策として注目されている。しかし、こうしたエージェントが「広範囲な文脈(wide-context)」における情報収集を信頼性と完全性をもって実行できるかどうかは、適切なベンチマークの不足により、依然として十分に評価されていない。このギャップを埋めるために、本研究では大規模な情報収集タスクにおけるエージェントの信頼性を評価するための新規ベンチマーク「WideSearch」を提案する。本ベンチマークは、15以上の多様な分野から抽出された200の手作業で選定された質問(英語100問、中国語100問)を収録しており、実際のユーザークエリに基づいている。各タスクでは、エージェントが大規模な原子的な情報を収集し、それぞれを客観的に検証可能かつ体系的に整理した出力を生成することを要求する。厳格な5段階の品質管理プロセスにより、データセットの難易度、完全性、検証可能性が確保されている。本研究では、単一エージェント、マルチエージェントフレームワーク、エンドツーエンド型商用システムを含む10種類以上の最先端エージェント検索システムを評価した。その結果、大多数のシステムは全体的な成功率がほぼ0%にとどまり、最高性能を発揮したシステムでもわずか5%にとどまった。一方で、十分な時間と複数の人力によるクロスバリデーションが行われれば、成功率はほぼ100%に達することが確認された。これらの結果は、現在の検索エージェントが大規模な情報収集において重大な課題を抱えていることを示しており、今後のエージェント検索分野における研究開発の緊急性を強調するものである。本研究で開発したデータセット、評価パイプライン、およびベンチマーク結果は、すべて公開されており、https://widesearch-seed.github.io/ にて入手可能である。