日期

6 个月前

数据集组织

论文 URL

标签

SimpleQA 是由 OpenAI 于 2024 年发布的一个面向大语言模型的事实准确性评测数据集，相关论文成果为 Measuring short-form factuality in large language models，旨在评估模型在回答简短、明确、可唯一验证的事实性问题时的正确性表现，避免复杂推理或主观判断对评测结果的干扰。该数据集目前已更新，共包含 4,326 条问题样本，覆盖科学与技术、艺术、娱乐等多个主题领域。其中，4,321 条样本构成正式测试集，另有 5 条样本用于 few-shot 评测设置。每个问题均对应唯一且无争议的标准答案，并由两名独立的人工训练人员基于可靠来源进行核验，确保答案的准确性与可验证性。数据集中每条样本还标注了问题所属主题、答案类型（如人物、数值或地点）以及支持答案的参考链接，便于精确评测与结果分析。与早期事实性基准相比，SimpleQA 在难度上显著提升，即便是当前前沿模型在该数据集上的准确率也明显受限，因此可作为评估模型事实可靠性的高强度测试工具。

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

在 Discord 上讨论

日期

6 个月前

数据集组织

论文 URL

2411.04368

标签

自然语言处理

智能问答

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

THINGS-EEG 脑电图数据集

5 个月前

LightOnOCR-mix-0126 文本转录数据集

5 个月前

Human Face Emotions 人脸情绪数据集

2 个月前

GroundingME 复杂场景理解评测数据集

5 个月前

MCIF 多模态跨语言指令跟随数据集

5 个月前

TxT360-3efforts 多任务推理数据集

5 个月前

LongBench-Pro 长上下文综合评测数据集

6 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

用 AI 构建 AI

HyperAI Newsletters

相关数据集

THINGS-EEG 脑电图数据集

LightOnOCR-mix-0126 文本转录数据集

Human Face Emotions 人脸情绪数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

THINGS-EEG 脑电图数据集

LightOnOCR-mix-0126 文本转录数据集

Human Face Emotions 人脸情绪数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

THINGS-EEG 脑电图数据集

LightOnOCR-mix-0126 文本转录数据集

Human Face Emotions 人脸情绪数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集

相关数据集

THINGS-EEG 脑电图数据集

LightOnOCR-mix-0126 文本转录数据集

Human Face Emotions 人脸情绪数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集

Command Palette

SimpleQA 简明事实性问答评测数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

SimpleQA 简明事实性问答评测数据集

相关数据集

THINGS-EEG 脑电图数据集

LightOnOCR-mix-0126 文本转录数据集

Human Face Emotions 人脸情绪数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

SimpleQA 简明事实性问答评测数据集

相关数据集

THINGS-EEG 脑电图数据集

LightOnOCR-mix-0126 文本转录数据集

Human Face Emotions 人脸情绪数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

THINGS-EEG 脑电图数据集

LightOnOCR-mix-0126 文本转录数据集

Human Face Emotions 人脸情绪数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集

相关数据集

THINGS-EEG 脑电图数据集

LightOnOCR-mix-0126 文本转录数据集

Human Face Emotions 人脸情绪数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集