FRAMES ベンチマークは、Google が 2024 年にリリースした包括的な評価データセットで、事実性、検索精度、推論の観点から検索拡張生成 (RAG) システムの機能をテストするように設計されています。関連する論文結果は「事実、フェッチ、および理由: 検索拡張生成の統合評価”。このデータセットには、2 ~ 15 個の Wikipedia 記事の情報を必要とする 824 個の難しいマルチホップ問題が含まれています。質問には、歴史、スポーツ、科学、動物、健康などを含むさまざまなトピックが含まれており、各質問には数値、表形式、複数の制約、時間的、後処理などの推論タイプがラベル付けされています。このデータセットは、各質問に対する重要な回答と関連する Wikipedia 記事も提供します。
FRAMES データセットの主な機能には、エンドツーエンドの RAG 機能のテスト、複数のソースからの情報の統合の必要性、複雑な推論と時間的曖昧さの排除が含まれていること、最先端の言語モデルにとって困難であるように設計されていることなどが含まれます。このデータセットは、RAG システムのパフォーマンスの評価、言語モデルの事実性と推論機能のベンチマーク、およびマルチホップ検索戦略の開発とテストに使用できます。