Command Palette
Search for a command to run...
DRACOクロスドメイン深層研究ベンチマークデータセット
DRACOクロスドメイン深層研究ベンチマークデータセットは、複雑な研究タスクを評価するためにPerplexityチームが公開したデータセットです。関連論文には… DRACO:深層研究の正確性、完全性、客観性を評価するための分野横断型ベンチマーク本研究の目的は、詳細調査システムの総合的な能力を、正確性、網羅性、客観性の観点から体系的に評価することである。 このデータセットには、5大陸40の国と地域を網羅し、金融、ショッピング/製品比較、学術、テクノロジーなど10の主要な応用分野を含む、100の複雑な調査タスクが含まれています。各タスクは、複数のステップと複数の情報源に基づく情報検索と分析の問題に対応しており、26人の分野専門家によって設計および検証された評価基準が付属しています。各基準には平均約40の評価指標が含まれており、事実の正確性、分析の幅と深さ、プレゼンテーションの質、引用の質という4つの側面からモデル出力の詳細な評価を提供します。 分野別の業務配分を以下の図に示す。

idタスク固有の識別子。domainタスクが属するドメインproblem回答を必要とする完全な調査クエリanswer評価基準はJSON形式でエンコードされており、各評価項目ごとに具体的な基準が含まれています。