2ヶ月前

ベンチマーク

検索拡張生成

視覚質問応答

AIインフラストラクチャ

アプローチ／フレームワーク

マルチモーダル

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas

概要

我们紹介する「FACTS Leaderboard」は、多様なシナリオにおいて言語モデルが事実に即したテキストを生成する能力を包括的に評価するためのオンラインリーダーボード・セットおよび関連するベンチマークです。このセットは、以下の4つの別個のサブリーダーボードにおけるモデルのパフォーマンスを統合することで、事実性の包括的な指標を提供します。（1）FACTS Multimodal：画像を用いた質問に対する回答の事実性を測定；（2）FACTS Parametric：内部パラメータから閉じた本（closed-book）の事実的質問に答えることで、モデルの世界知識を評価；（3）FACTS Search：検索APIを用いる情報検索シナリオにおける事実性を評価；（4）FACTS Grounding（v2）：提示された文書に基づいて長文回答が適切に根拠づけられているかを評価し、大幅に改善された判定モデル（judge models）を採用。各サブリーダーボードでは自動化された判定モデルを用いて回答をスコア付けし、最終的なスコアは4つの要素の平均値として算出され、モデルの全体的な事実性を堅牢かつバランスの取れた形で評価することを目的としています。FACTS Leaderboard セットは継続的にメンテナンスされ、外部参加を可能にするための公開・非公開のデータ分割を併用しつつ、評価の信頼性と整合性を確保します。詳細は https://www.kaggle.com/benchmarks/google/facts にてご確認ください。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

2ヶ月前

ベンチマーク

検索拡張生成

視覚質問応答

AIインフラストラクチャ

アプローチ／フレームワーク

マルチモーダル

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas

概要

我们紹介する「FACTS Leaderboard」は、多様なシナリオにおいて言語モデルが事実に即したテキストを生成する能力を包括的に評価するためのオンラインリーダーボード・セットおよび関連するベンチマークです。このセットは、以下の4つの別個のサブリーダーボードにおけるモデルのパフォーマンスを統合することで、事実性の包括的な指標を提供します。（1）FACTS Multimodal：画像を用いた質問に対する回答の事実性を測定；（2）FACTS Parametric：内部パラメータから閉じた本（closed-book）の事実的質問に答えることで、モデルの世界知識を評価；（3）FACTS Search：検索APIを用いる情報検索シナリオにおける事実性を評価；（4）FACTS Grounding（v2）：提示された文書に基づいて長文回答が適切に根拠づけられているかを評価し、大幅に改善された判定モデル（judge models）を採用。各サブリーダーボードでは自動化された判定モデルを用いて回答をスコア付けし、最終的なスコアは4つの要素の平均値として算出され、モデルの全体的な事実性を堅牢かつバランスの取れた形で評価することを目的としています。FACTS Leaderboard セットは継続的にメンテナンスされ、外部参加を可能にするための公開・非公開のデータ分割を併用しつつ、評価の信頼性と整合性を確保します。詳細は https://www.kaggle.com/benchmarks/google/facts にてご確認ください。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

FACTS Leaderboard：大規模言語モデルの事実性を評価する包括的なベンチマーク | 記事 | HyperAI超神経