HyperAIHyperAI

Command Palette

Search for a command to run...

UQ 未解问题数据集

Use this DatasetDiscuss on Discord

Date

4 个月前

Organization

Stanford University
University of Washington

Paper URL

2508.17580

License

CC BY-SA 4.0

UQ 数据集是由斯坦福大学联合华盛顿大学、北卡罗来纳大学等机构于 2025 年发布的评测基准,相关论文成果为「UQ: Assessing Language Models on Unsolved Questions」,旨在以真实且高难度的「未被人类社会解答的问题」来评估前沿大模型在推理、事实性与浏览方面的能力。

数据集由来自 Stack Exchange 平台的 500 个长期未解答问题构成,覆盖计算机科学理论、数学、科幻、历史等多主题,并采用「规则过滤 + LLM 评审 + 人工审核」收集管线,配套 UQ-Validators 用于候选答案的自动预筛与社区复核其特点是难而真实、异步评测、生成—验证分离,适用于前沿模型的推理/检索评测、长期进步跟踪与公开排行榜等场景。

数据分布:

  • Science(科学):395
  • Technology(技术):52
  • Culture & Recreation(文化与休闲):16
  • Life & Arts(生活与艺术):35
数据集构建流程

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供