Command Palette

Search for a command to run...

WebInstruct-verified 多领域推理数据集

日期

3 个月前

机构

University of Waterloo

论文链接

arxiv.org

许可协议

Apache 2.0

加入 Discord 社区

WebInstruct-verified 是由滑铁卢大学和 Vector Institute 于 2025 联合发布的一个多领域推理数据集,相关论文成果为「General-Reasoner: Advancing LLM Reasoning Across All Domains」,旨在增强 LLMs 在多样化领域的推理能力,同时保留其在数学领域的优势。

该数据集包含约 23 万道推理问题,涵盖多种答案格式,包括选择题、数值表达式数据集的均衡领域分布。该数据集主要涵盖了数学、物理、化学、金融等学科,以及其他各种人文和社会科学领域。

数据集特征:

  • 零 RL 培训: 从基础 LLM 直接强化学习,绕过中间监督阶段。
  • 多样化的推理数据:超过 230K 个来自网络的高质量、可验证的问题,并经过过滤以实现跨学科的答案可验证性。
  • 基于模型的验证器: 紧凑的 1.5B 生成式验证器模型,用于上下文感知、思维链答案验证,优于传统的基于规则的方法。
数据集领域分布

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供