Command Palette

Search for a command to run...

UQ 未解问题数据集

日期

2 个月前

机构

Stanford University
University of Washington

论文链接

2508.17580

许可协议

CC BY-SA 4.0

加入 Discord 社区

*该数据集支持在线使用,点击此处跳转

UQ 数据集是由斯坦福大学联合华盛顿大学、北卡罗来纳大学等机构于 2025 年发布的评测基准,相关论文成果为「UQ: Assessing Language Models on Unsolved Questions」,旨在以真实且高难度的「未被人类社会解答的问题」来评估前沿大模型在推理、事实性与浏览方面的能力。

数据集由来自 Stack Exchange 平台的 500 个长期未解答问题构成,覆盖计算机科学理论、数学、科幻、历史等多主题,并采用「规则过滤 + LLM 评审 + 人工审核」收集管线,配套 UQ-Validators 用于候选答案的自动预筛与社区复核其特点是难而真实、异步评测、生成—验证分离,适用于前沿模型的推理/检索评测、长期进步跟踪与公开排行榜等场景。

数据分布:

  • Science(科学):395
  • Technology(技术):52
  • Culture & Recreation(文化与休闲):16
  • Life & Arts(生活与艺术):35
数据集构建流程

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UQ 未解问题数据集 | 数据集 | HyperAI超神经