日付

6ヶ月前

データセット構成

Paper URL

タグ

SimpleQA は、OpenAI が 2024 年にリリースした大規模言語モデルの事実精度評価データセットです。関連論文には以下が含まれます... 大規模言語モデルにおける短形式の事実性の測定目的は、評価結果における複雑な推論や主観的な判断の干渉を避けながら、短く明確で一意に検証可能な事実の質問に対するモデルの正確性を評価することです。データセットは更新され、現在4,326件のサンプル問題が含まれており、科学技術、芸術、エンターテインメントなど、複数のテーマを網羅しています。このうち4,321件は公式テストセットを構成し、5件は少数の試行評価に使用されます。各質問には、正確性と検証可能性を確保するために、信頼できる情報源から独立した2人の人間のトレーナーによって検証された、唯一かつ議論の余地のない標準回答が用意されています。データセット内の各サンプルには、質問のテーマ、回答の種類（例：人物、数字、場所）、および正確な評価と結果分析を支援するための補足リンクがラベル付けされています。以前の事実に基づくベンチマークと比較すると、SimpleQAははるかに難易度が高く、このデータセットにおける現在の最先端モデルの精度でさえ明らかに限界があります。そのため、モデルの事実に基づく信頼性を評価するための高強度テストツールとして使用できます。

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

Discordで議論

日付

6ヶ月前

データセット構成

Paper URL

2411.04368

タグ

自然言語処理

インテリジェントな質問応答

THINGS-EEG EEGデータセット

5ヶ月前

LightOnOCR-mix-0126 テキスト転写データセット

5ヶ月前

人間の顔の感情データセット

2ヶ月前

GroundingME 複雑シーン理解評価データセット

5ヶ月前

MCIFマルチモーダルクロスランゲージ指導データセット

5ヶ月前

TxT360-3efforts マルチタスク推論データセット

5ヶ月前

LongBench-Pro ロングコンテキスト包括的評価データセット

6ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

AIでAIを構築

HyperAI Newsletters

関連データセット

THINGS-EEG EEGデータセット

LightOnOCR-mix-0126 テキスト転写データセット

人間の顔の感情データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

THINGS-EEG EEGデータセット

LightOnOCR-mix-0126 テキスト転写データセット

人間の顔の感情データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

THINGS-EEG EEGデータセット

LightOnOCR-mix-0126 テキスト転写データセット

人間の顔の感情データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

関連データセット

THINGS-EEG EEGデータセット

LightOnOCR-mix-0126 テキスト転写データセット

人間の顔の感情データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

Command Palette

SimpleQA 簡潔な事実に基づく質問応答評価データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

SimpleQA 簡潔な事実に基づく質問応答評価データセット

関連データセット

THINGS-EEG EEGデータセット

LightOnOCR-mix-0126 テキスト転写データセット

人間の顔の感情データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

SimpleQA 簡潔な事実に基づく質問応答評価データセット

関連データセット

THINGS-EEG EEGデータセット

LightOnOCR-mix-0126 テキスト転写データセット

人間の顔の感情データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

THINGS-EEG EEGデータセット

LightOnOCR-mix-0126 テキスト転写データセット

人間の顔の感情データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

関連データセット

THINGS-EEG EEGデータセット

LightOnOCR-mix-0126 テキスト転写データセット

人間の顔の感情データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット