Command Palette
Search for a command to run...
UQ 未解问题数据集
*该数据集支持在线使用,点击此处跳转。
UQ 数据集是由斯坦福大学联合华盛顿大学、北卡罗来纳大学等机构于 2025 年发布的评测基准,相关论文成果为「UQ: Assessing Language Models on Unsolved Questions」,旨在以真实且高难度的「未被人类社会解答的问题」来评估前沿大模型在推理、事实性与浏览方面的能力。
数据集由来自 Stack Exchange 平台的 500 个长期未解答问题构成,覆盖计算机科学理论、数学、科幻、历史等多主题,并采用「规则过滤 + LLM 评审 + 人工审核」收集管线,配套 UQ-Validators 用于候选答案的自动预筛与社区复核其特点是难而真实、异步评测、生成—验证分离,适用于前沿模型的推理/检索评测、长期进步跟踪与公开排行榜等场景。
数据分布:
- Science(科学):395
- Technology(技术):52
- Culture & Recreation(文化与休闲):16
- Life & Arts(生活与艺术):35
