Command Palette
Search for a command to run...
VERA 语音推理评测数据集
VERA 是由杜克大学联合 Adobe 于 2025 年发布的一个面向语音原生推理能力评测的大规模多任务语音数据集,相关论文成果为「Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap」,旨在评估大模型在语音原生(voice-native)条件下的推理能力。
该数据集共包含 2,931 条语音原生推理样本(episodes),并依据任务特性划分为五个轨道(Tracks):
- Math(115 条):来自 AIME 2025 的竞赛数学问题
- Web(1,107 条):来自 BrowseComp 的网页浏览与信息检索任务
- Science(161 条):基于 GPQA Diamond 的研究生水平科学题目
- Long-Context(548 条):来自 MRCR 的多轮长篇阅读理解任务
- Factual(1,000 条):基于 SimpleQA 的事实性问答。
所有样本均为语音形式原生呈现,音频由 Boson Higgs Audio 2 合成,保证一致、清晰与高质量的语音表现,数据集中每条样本的 audio_file 字段均指向相应的音频路径。
数据结构:
数据以 JSON 结构组织,每条 episode 包含完整的语音推理样本,其核心字段包括:
- id:唯一标识符
- track:所属轨道(mathematical_reasoning / web / science / long_context / factual)
- turns:对话轮次,包含:
- role(固定为 user)
- text_content(Base64 加密文本)
- audio_file(对应音频路径)
- prefix_text 与 postfix_text(可为空)
- context_documents:补充上下文材料(若有)
- interruptions:打断事件记录
- metadata.expected_answer:加密后的参考答案
- canary:该条样本的唯一解密密钥