日期

10 个月前

数据集组织

论文 URL

2508.17580

许可证

CC BY-SA 4.0

标签

数学

计算机科学理论

UQ 数据集是由斯坦福大学联合华盛顿大学、北卡罗来纳大学等机构于 2025 年发布的评测基准，相关论文成果为「UQ: Assessing Language Models on Unsolved Questions」，旨在以真实且高难度的「未被人类社会解答的问题」来评估前沿大模型在推理、事实性与浏览方面的能力。数据集由来自 Stack Exchange 平台的 500 个长期未解答问题构成，覆盖计算机科学理论、数学、科幻、历史等多主题，并采用「规则过滤 + LLM 评审 + 人工审核」收集管线，配套 UQ-Validators 用于候选答案的自动预筛与社区复核其特点是难而真实、异步评测、生成—验证分离，适用于前沿模型的推理/检索评测、长期进步跟踪与公开排行榜等场景。

数据分布：

Science（科学）：395
Technology（技术）：52
Culture & Recreation（文化与休闲）：16
Life & Arts（生活与艺术）：35
数据集构建流程

Citation

@misc{nie2025uqassessinglanguagemodels, title={UQ: Assessing Language Models on Unsolved Questions}, author={Fan Nie and Ken Ziyu Liu and Zihao Wang and Rui Sun and Wei Liu and Weijia Shi and Huaxiu Yao and Linjun Zhang and Andrew Y. Ng and James Zou and Sanmi Koyejo and Yejin Choi and Percy Liang and Niklas Muennighoff}, year={2025}, eprint={2508.17580}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.17580}, }

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集在 Discord 上讨论

日期

10 个月前

数据集组织

论文 URL

2508.17580

许可证

CC BY-SA 4.0

标签

数学

计算机科学理论

数据分布：

Science（科学）：395
Technology（技术）：52
Culture & Recreation（文化与休闲）：16
Life & Arts（生活与艺术）：35
数据集构建流程

Citation

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

MAKIEVAL 多语言文化知识评估数据集

5 小时前

SAM 3D Artist Objects 3D 物体重建数据集

5 天前

FigureBench 科学插图生成基准数据集

7 天前

DeepCrack 基础设施裂缝检测数据集

25 天前

SMOL 多语言翻译平行数据集

1 个月前

chi-bench 医疗智能体基准评测数据集

13 天前

MemLens 多模态长上下文基准数据集

1 个月前

Claw-Eval 真实世界评测基准数据集

1 个月前

QCalEval 量子校准图表理解数据集

2 个月前

RSRCC 遥感区域变化理解基准数据集

8 天前

MDPBench 多语言文档解析基准数据集

8 天前

Simple Voice Questions 简单语音问题数据集

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

UQ 未解问题数据集

数据分布：

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

UQ 未解问题数据集

数据分布：

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

DeepCrack 基础设施裂缝检测数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

MemLens 多模态长上下文基准数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

MDPBench 多语言文档解析基准数据集

Simple Voice Questions 简单语音问题数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

UQ 未解问题数据集

数据分布：

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

DeepCrack 基础设施裂缝检测数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

MemLens 多模态长上下文基准数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

MDPBench 多语言文档解析基准数据集

Simple Voice Questions 简单语音问题数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

DeepCrack 基础设施裂缝检测数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

MemLens 多模态长上下文基准数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

MDPBench 多语言文档解析基准数据集

Simple Voice Questions 简单语音问题数据集

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

DeepCrack 基础设施裂缝检测数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

MemLens 多模态长上下文基准数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

MDPBench 多语言文档解析基准数据集

Simple Voice Questions 简单语音问题数据集