概要

DeepSearchQA を紹介する。これは、17の異なる分野にまたがる困難な多段階情報探索タスクにおいてエージェントの性能を評価するための、900プロンプトからなるベンチマークである。従来のベンチマークが単一の答えの取得や広範な事実性を対象とするのに対し、DeepSearchQA は手作業で設計された挑戦的なタスクのデータセットを特徴としており、エージェントが複雑な検索計画を実行し、包括的な答えのリストを生成する能力を評価することを目的としている。この設計の変更により、これまで十分に評価されてこなかった以下の3つの重要な能力が明示的に検証される：1）異なる情報源から断片化された情報を体系的に収集する能力、2）重複除去およびエンティティ解決による精度の確保、3）開放的な検索空間における停止基準についての推論能力。各タスクは因果関係の連鎖として構造化されており、1段階目の情報発見は直前の段階の成功に依存するため、長期的な計画立案とコンテキストの保持を強く要求する。すべてのタスクはオープンウェブに根ざしており、客観的に検証可能な答えの集合を持つ。最先端のエージェントアーキテクチャを包括的に評価した結果、顕著な性能の限界が明らかになった。最も進化したモデルですら、高リコールと高精度の両立に苦戦している。その結果、過剰な検索（リコールの人工的上昇）を図るために低信頼度の広範な答えを提示する「ヘッジング」行動から、早期に検索を終了する（リコール不足）まで、明確な失敗モードが観察された。これらの発見は、現行のエージェント設計における大きな改善余地を示しており、DeepSearchQA は今後の研究がより強靭で深層的な情報探索能力を有する方向へ進むための不可欠な診断ツールとして位置づけられる。

ソースPDF