HyperAIHyperAI

Command Palette

Search for a command to run...

DRACOクロスドメイン深層研究ベンチマークデータセット

日付

7時間前

Paper URL

2602.11685

ライセンス

MIT

DRACOクロスドメイン深層研究ベンチマークデータセットは、複雑な研究タスクを評価するためにPerplexityチームが公開したデータセットです。関連論文には… DRACO:深層研究の正確性、完全性、客観性を評価するための分野横断型ベンチマーク本研究の目的は、詳細調査システムの総合的な能力を、正確性、網羅性、客観性の観点から体系的に評価することである。 このデータセットには、5大陸40の国と地域を網羅し、金融、ショッピング/製品比較、学術、テクノロジーなど10の主要な応用分野を含む、100の複雑な調査タスクが含まれています。各タスクは、複数のステップと複数の情報源に基づく情報検索と分析の問題に対応しており、26人の分野専門家によって設計および検証された評価基準が付属しています。各基準には平均約40の評価指標が含まれており、事実の正確性、分析の幅と深さ、プレゼンテーションの質、引用の質という4つの側面からモデル出力の詳細な評価を提供します。 分野別の業務配分を以下の図に示す。

タスクドメインの分布
タスクドメインの分布
データフィールド:

  • idタスク固有の識別子。
  • domainタスクが属するドメイン
  • problem回答を必要とする完全な調査クエリ
  • answer評価基準はJSON形式でエンコードされており、各評価項目ごとに具体的な基準が含まれています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています