HyperAIHyperAI

Command Palette

Search for a command to run...

DeepResearch Bench: 深層研究エージェントのための包括的なベンチマーク

Mingxuan Du Benfeng Xu Chiwei Zhu Xiaorui Wang Zhendong Mao

概要

深層研究エージェント(Deep Research Agents)は、LLM(大規模言語モデル)を基盤とするエージェントの主要なカテゴリーです。これらのエージェントは、複数ステップにわたるウェブ探索、対象特定の情報取得、および高次合成を自律的に統合することで、大量のオンライン情報を分析家レベルの引用豊富なレポートに変換し、手動で行うデスクリサーチにかかる時間を数分に圧縮します。しかし、これらのエージェントの能力を系統的に評価するための包括的なベンチマークが未だ存在していません。このギャップを埋めるために、私たちは「DeepResearch Bench」というベンチマークを提示します。これは22の異なる分野の専門家によって細心の注意を払って作成された100件の博士課程レベルの研究タスクから構成されています。DRAs(深層研究エージェント)の評価は本質的に複雑かつ労力がかかるものです。そのため、私たちは人間の判断と強い整合性を持つ2つの新しい手法を提案します。1つ目は生成された研究レポートの品質を評価するための適応基準に基づく参照型方法です。2つ目のフレームワークは、有効な引用数と全体的な引用精度を評価することでDRAの情報取得・収集能力を測定するものです。私たちはDeepResearch Benchおよびこれらのフレームワークの主要コンポーネントをオープンソース化し、https://github.com/Ayanami0730/deep_research_bench において公開しています。これにより実用的なLLMベースエージェント開発が加速されることを目指しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DeepResearch Bench: 深層研究エージェントのための包括的なベンチマーク | 記事 | HyperAI超神経