8ヶ月前

概要

深層研究エージェント（Deep Research Agents）は、LLM（大規模言語モデル）を基盤とするエージェントの主要なカテゴリーです。これらのエージェントは、複数ステップにわたるウェブ探索、対象特定の情報取得、および高次合成を自律的に統合することで、大量のオンライン情報を分析家レベルの引用豊富なレポートに変換し、手動で行うデスクリサーチにかかる時間を数分に圧縮します。しかし、これらのエージェントの能力を系統的に評価するための包括的なベンチマークが未だ存在していません。このギャップを埋めるために、私たちは「DeepResearch Bench」というベンチマークを提示します。これは22の異なる分野の専門家によって細心の注意を払って作成された100件の博士課程レベルの研究タスクから構成されています。DRAs（深層研究エージェント）の評価は本質的に複雑かつ労力がかかるものです。そのため、私たちは人間の判断と強い整合性を持つ2つの新しい手法を提案します。1つ目は生成された研究レポートの品質を評価するための適応基準に基づく参照型方法です。2つ目のフレームワークは、有効な引用数と全体的な引用精度を評価することでDRAの情報取得・収集能力を測定するものです。私たちはDeepResearch Benchおよびこれらのフレームワークの主要コンポーネントをオープンソース化し、https://github.com/Ayanami0730/deep_research_bench において公開しています。これにより実用的なLLMベースエージェント開発が加速されることを目指しています。

ソースPDF コードを表示