Command Palette

Search for a command to run...

VERA 语音推理评测数据集

日期

6 天前

机构

发布地址

github.com

论文链接

2509.26542

许可协议

CC BY 4.0

VERA 是由杜克大学联合 Adobe 于 2025 年发布的一个面向语音原生推理能力评测的大规模多任务语音数据集,相关论文成果为「Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap」,旨在评估大模型在语音原生(voice-native)条件下的推理能力。

该数据集共包含 2,931 条语音原生推理样本(episodes),并依据任务特性划分为五个轨道(Tracks):

  • Math(115 条):来自 AIME 2025 的竞赛数学问题
  • Web(1,107 条):来自 BrowseComp 的网页浏览与信息检索任务
  • Science(161 条):基于 GPQA Diamond 的研究生水平科学题目
  • Long-Context(548 条):来自 MRCR 的多轮长篇阅读理解任务
  • Factual(1,000 条):基于 SimpleQA 的事实性问答。

所有样本均为语音形式原生呈现,音频由 Boson Higgs Audio 2 合成,保证一致、清晰与高质量的语音表现,数据集中每条样本的 audio_file 字段均指向相应的音频路径。

数据结构:

数据以 JSON 结构组织,每条 episode 包含完整的语音推理样本,其核心字段包括:

  • id:唯一标识符
  • track:所属轨道(mathematical_reasoning / web / science / long_context / factual)
  • turns:对话轮次,包含:
    • role(固定为 user)
    • text_content(Base64 加密文本)
    • audio_file(对应音频路径)
    • prefix_text 与 postfix_text(可为空)
  • context_documents:补充上下文材料(若有)
  • interruptions:打断事件记录
  • metadata.expected_answer:加密后的参考答案
  • canary:该条样本的唯一解密密钥

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供