HyperAIHyperAI

Command Palette

Search for a command to run...

SimpleQA 简明事实性问答评测数据集

Date

20 小时前

Organization

OpenAI

Paper URL

2411.04368

SimpleQA 是由 OpenAI 于 2024 年发布的一个面向大语言模型的事实准确性评测数据集,相关论文成果为 Measuring short-form factuality in large language models,旨在评估模型在回答简短、明确、可唯一验证的事实性问题时的正确性表现,避免复杂推理或主观判断对评测结果的干扰。

该数据集目前已更新,共包含 4,326 条问题样本,覆盖科学与技术、艺术、娱乐等多个主题领域。其中,4,321 条样本构成正式测试集,另有 5 条样本用于 few-shot 评测设置。每个问题均对应唯一且无争议的标准答案,并由两名独立的人工训练人员基于可靠来源进行核验,确保答案的准确性与可验证性。数据集中每条样本还标注了问题所属主题、答案类型(如人物、数值或地点)以及支持答案的参考链接,便于精确评测与结果分析。

与早期事实性基准相比,SimpleQA 在难度上显著提升,即便是当前前沿模型在该数据集上的准确率也明显受限,因此可作为评估模型事实可靠性的高强度测试工具。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供