日期

7 个月前

大小

2.37 GB

数据集组织

发布 URL

github.com

论文 URL

2509.26542

许可证

CC BY 4.0

标签

音频和语音处理

智能问答

推理

VERA 是由杜克大学联合 Adobe 于 2025 年发布的一个面向语音原生推理能力评测的大规模多任务语音数据集，相关论文成果为「Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap」，旨在评估大模型在语音原生（voice-native）条件下的推理能力。该数据集共包含 2,931 条语音原生推理样本（episodes），并依据任务特性划分为五个轨道（Tracks）：

Math（115 条）：来自 AIME 2025 的竞赛数学问题
Web（1,107 条）：来自 BrowseComp 的网页浏览与信息检索任务
Science（161 条）：基于 GPQA Diamond 的研究生水平科学题目
Long-Context（548 条）：来自 MRCR 的多轮长篇阅读理解任务
Factual（1,000 条）：基于 SimpleQA 的事实性问答。所有样本均为语音形式原生呈现，音频由 Boson Higgs Audio 2 合成，保证一致、清晰与高质量的语音表现，数据集中每条样本的 audio_file 字段均指向相应的音频路径。

数据结构：

数据以 JSON 结构组织，每条 episode 包含完整的语音推理样本，其核心字段包括：

id：唯一标识符
track：所属轨道（mathematical_reasoning / web / science / long_context / factual）
turns：对话轮次，包含：

role（固定为 user）
text_content（Base64 加密文本）
audio_file（对应音频路径）
prefix_text 与 postfix_text（可为空）

context_documents：补充上下文材料（若有）
interruptions：打断事件记录
metadata.expected_answer：加密后的参考答案
canary：该条样本的唯一解密密钥

VERA.torrent

做种 2正在下载 0已完成 1总下载量 75

VERA/
- README.md
  2.37 KB
- README.txt
  4.74 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

7 个月前

大小

2.37 GB

数据集组织

发布 URL

github.com

论文 URL

2509.26542

许可证

CC BY 4.0

标签

音频和语音处理

智能问答

推理

Math（115 条）：来自 AIME 2025 的竞赛数学问题
Web（1,107 条）：来自 BrowseComp 的网页浏览与信息检索任务
Science（161 条）：基于 GPQA Diamond 的研究生水平科学题目
Long-Context（548 条）：来自 MRCR 的多轮长篇阅读理解任务
Factual（1,000 条）：基于 SimpleQA 的事实性问答。所有样本均为语音形式原生呈现，音频由 Boson Higgs Audio 2 合成，保证一致、清晰与高质量的语音表现，数据集中每条样本的 audio_file 字段均指向相应的音频路径。

数据结构：

数据以 JSON 结构组织，每条 episode 包含完整的语音推理样本，其核心字段包括：

id：唯一标识符
track：所属轨道（mathematical_reasoning / web / science / long_context / factual）
turns：对话轮次，包含：

role（固定为 user）
text_content（Base64 加密文本）
audio_file（对应音频路径）
prefix_text 与 postfix_text（可为空）

context_documents：补充上下文材料（若有）
interruptions：打断事件记录
metadata.expected_answer：加密后的参考答案
canary：该条样本的唯一解密密钥

VERA.torrent

做种 2正在下载 0已完成 1总下载量 75

VERA/
- README.md
  2.37 KB
- README.txt
  4.74 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

CHIMERA 通用推理合成数据集

3 个月前

Nemotron-Math-v2 数学推理数据集

5 个月前

GroundingME 复杂场景理解评测数据集

5 个月前

TxT360-3efforts 多任务推理数据集

5 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

数据结构：

用 AI 构建 AI

HyperAI Newsletters

数据结构：

相关数据集

CHIMERA 通用推理合成数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

TxT360-3efforts 多任务推理数据集

用 AI 构建 AI

HyperAI Newsletters

数据结构：

相关数据集

CHIMERA 通用推理合成数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

TxT360-3efforts 多任务推理数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

CHIMERA 通用推理合成数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

TxT360-3efforts 多任务推理数据集

相关数据集

CHIMERA 通用推理合成数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

TxT360-3efforts 多任务推理数据集

Command Palette

VERA 语音推理评测数据集

数据结构：

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VERA 语音推理评测数据集

数据结构：

相关数据集

CHIMERA 通用推理合成数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

TxT360-3efforts 多任务推理数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VERA 语音推理评测数据集

数据结构：

相关数据集

CHIMERA 通用推理合成数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

TxT360-3efforts 多任务推理数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

CHIMERA 通用推理合成数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

TxT360-3efforts 多任务推理数据集

相关数据集

CHIMERA 通用推理合成数据集

Nemotron-Math-v2 数学推理数据集

GroundingME 复杂场景理解评测数据集

TxT360-3efforts 多任务推理数据集