Command Palette

Search for a command to run...

1ヶ月前

FDABench:異種データ上の分析クエリ向けデータエージェントのベンチマーク

Ziting Wang Shize Zhang Haitao Yuan Jinwei Zhu et al

FDABench:異種データ上の分析クエリ向けデータエージェントのベンチマーク

要約

データドリブンな意思決定への需要が高まる中、構造化データと非構造化データを統合して分析できるデータエージェントの開発が急務となっている。データエージェントは、ユーザーが複雑な分析タスクを実行できる可能性を秘めているものの、この分野は以下の三つの重要な課題に直面している。第一に、複数のデータソースにおける分析タスクを網羅的に評価できるテストケースの設計が困難なため、包括的なデータエージェントベンチマークが存在しない。第二に、構造化データと非構造化データを組み合わせた信頼性の高いテストケースを構築することは、費用がかかり、かつ極めて複雑である。第三に、既存のベンチマークは適応性と汎用性に乏しく、評価範囲が限定的である。これらの課題に対処するため、本研究では、複数のデータソースにおける分析シナリオを想定したデータエージェントの評価に特化した、世界初のベンチマーク「FDABench」を提案する。本研究の主な貢献は以下の通りである:(i) 異なるデータソース、ドメイン、難易度、タスクタイプにわたる2,007件の多様なタスクを含む標準化されたベンチマークを構築し、データエージェントの性能を包括的に評価可能とした;(ii) 異種データ環境においても信頼性と効率性を確保するエージェント・エキスパート協働フレームワークを設計し、ベンチマークの構築を実現した;(iii) 多様なターゲットシステムやフレームワークにおいても堅牢な汎用性を備えるようにFDABenchを設計した。本研究ではFDABenchを用いてさまざまなデータエージェントシステムを評価した結果、各システムは応答品質、正確性、待機時間、トークンコストの観点で、それぞれ異なる強みと限界を示したことが明らかになった。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
FDABench:異種データ上の分析クエリ向けデータエージェントのベンチマーク | 論文 | HyperAI超神経