Command Palette
Search for a command to run...
FACTS Leaderboard:大規模言語モデルの事実性を評価する包括的なベンチマーク
FACTS Leaderboard:大規模言語モデルの事実性を評価する包括的なベンチマーク
概要
我们紹介する「FACTS Leaderboard」は、多様なシナリオにおいて言語モデルが事実に即したテキストを生成する能力を包括的に評価するためのオンラインリーダーボード・セットおよび関連するベンチマークです。このセットは、以下の4つの別個のサブリーダーボードにおけるモデルのパフォーマンスを統合することで、事実性の包括的な指標を提供します。(1)FACTS Multimodal:画像を用いた質問に対する回答の事実性を測定;(2)FACTS Parametric:内部パラメータから閉じた本(closed-book)の事実的質問に答えることで、モデルの世界知識を評価;(3)FACTS Search:検索APIを用いる情報検索シナリオにおける事実性を評価;(4)FACTS Grounding(v2):提示された文書に基づいて長文回答が適切に根拠づけられているかを評価し、大幅に改善された判定モデル(judge models)を採用。各サブリーダーボードでは自動化された判定モデルを用いて回答をスコア付けし、最終的なスコアは4つの要素の平均値として算出され、モデルの全体的な事実性を堅牢かつバランスの取れた形で評価することを目的としています。FACTS Leaderboard セットは継続的にメンテナンスされ、外部参加を可能にするための公開・非公開のデータ分割を併用しつつ、評価の信頼性と整合性を確保します。詳細は https://www.kaggle.com/benchmarks/google/facts にてご確認ください。