Command Palette
Search for a command to run...
SimpleQA 簡潔な事実に基づく質問応答評価データセット
SimpleQA は、OpenAI が 2024 年にリリースした大規模言語モデルの事実精度評価データセットです。関連論文には以下が含まれます... 大規模言語モデルにおける短形式の事実性の測定目的は、評価結果における複雑な推論や主観的な判断の干渉を避けながら、短く明確で一意に検証可能な事実の質問に対するモデルの正確性を評価することです。
データセットは更新され、現在4,326件のサンプル問題が含まれており、科学技術、芸術、エンターテインメントなど、複数のテーマを網羅しています。このうち4,321件は公式テストセットを構成し、5件は少数の試行評価に使用されます。各質問には、正確性と検証可能性を確保するために、信頼できる情報源から独立した2人の人間のトレーナーによって検証された、唯一かつ議論の余地のない標準回答が用意されています。データセット内の各サンプルには、質問のテーマ、回答の種類(例:人物、数字、場所)、および正確な評価と結果分析を支援するための補足リンクがラベル付けされています。
以前の事実に基づくベンチマークと比較すると、SimpleQAははるかに難易度が高く、このデータセットにおける現在の最先端モデルの精度でさえ明らかに限界があります。そのため、モデルの事実に基づく信頼性を評価するための高強度テストツールとして使用できます。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.