Command Palette

Search for a command to run...

FRAMES ベンチマーク検索拡張生成テスト セット

日付

1年前

組織

グーグル

論文URL

arxiv.org

Discordコミュニティに参加

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください

FRAMES ベンチマークは、Google が 2024 年にリリースした包括的な評価データセットで、事実性、検索精度、推論の観点から検索拡張生成 (RAG) システムの機能をテストするように設計されています。関連する論文結果は「事実、フェッチ、および理由: 検索拡張生成の統合評価”。このデータセットには、2 ~ 15 個の Wikipedia 記事の情報を必要とする 824 個の難しいマルチホップ問題が含まれています。質問には、歴史、スポーツ、科学、動物、健康などを含むさまざまなトピックが含まれており、各質問には数値、表形式、複数の制約、時間的、後処理などの推論タイプがラベル付けされています。このデータセットは、各質問に対する重要な回答と関連する Wikipedia 記事も提供します。

FRAMES データセットの主な機能には、エンドツーエンドの RAG 機能のテスト、複数のソースからの情報の統合の必要性、複雑な推論と時間的曖昧さの排除が含まれていること、最先端の言語モデルにとって困難であるように設計されていることなどが含まれます。このデータセットは、RAG システムのパフォーマンスの評価、言語モデルの事実性と推論機能のベンチマーク、およびマルチホップ検索戦略の開発とテストに使用できます。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています