Command Palette
Search for a command to run...
VERA音声推論評価データセット
Date
Size
Publish URL
Paper URL
License
CC BY 4.0
VERAは、デューク大学がAdobeと共同で2025年に公開した大規模なマルチタスク音声データセットで、ネイティブ音声の推論能力を評価するために設計されています。関連する研究論文のタイトルは「音声による推論能力の評価:モダリティによるパフォーマンスギャップの診断目標は、音声ネイティブ条件下での大規模モデルの推論能力を評価することです。
このデータセットには、タスク特性に基づいて 5 つのトラックに分割された 2,931 個のネイティブ音声推論サンプル (エピソード) が含まれています。
- 数学(115件):AIME 2025の競技数学問題
- Web (1,107 エントリ): BrowseComp からの Web 閲覧および情報検索タスク
- 科学(161 項目):GPQA Diamond に基づいた大学院レベルの科学の質問。
- 長文読解(548項目):MRCRの複数ラウンドの長文読解課題
- 事実(1,000 エントリ):SimpleQA に基づいた事実に関する質問と回答。
すべてのサンプルはネイティブ音声形式で提示され、Boson Higgs Audio 2によって合成された音声により、一貫性があり明瞭で高品質な音声パフォーマンスが保証されています。データセット内の各サンプルのaudio_fileフィールドは、対応するオーディオパスを指しています。
データ構造:
データはJSON形式で整理されており、各エピソードには完全な音声推論サンプルが含まれています。コアフィールドは次のとおりです。
- id: 一意の識別子
- トラック: 所属するトラック (mathematical_reasoning / web / science / long_context / factual)
- ターン: 次のような対話ラウンドの数:
- 役割(ユーザーに固定)
- text_content (Base64 暗号化テキスト)
- audio_file(対応するオーディオパス)
- prefix_text と postfix_text (空でも可)
- context_documents: 補足的なコンテキスト資料(ある場合)
- 割り込み: 割り込みイベントのログ記録
- metadata.expected_answer: 暗号化された参照回答
- canary: このサンプルの一意の復号化キー。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.