Command Palette
Search for a command to run...
Verse-Benchオーディオビジュアル共同生成評価データセット
Verse-Benchは、StepFunが香港科技大学、香港科技大学(広州)などの機関と共同で2025年に公開した、音声と動画の共同生成を評価するためのベンチマークデータセットです。関連する論文の結果は「UniVerse-1: 専門家のスティッチングによる統合オーディオビデオ生成」は、生成モデルがビデオを生成するだけでなく、オーディオコンテンツ(周囲の音や音声を含む)との厳密な時間的整合を維持することを目指しています。
このデータセットには、YouTube、Bilibili、TikTok のビデオ フレーム、映画/アニメのスクリーンショット、AI モデル生成画像、公開 Web 画像から取得した 600 個の画像とテキストのプロンプトのペアが含まれています。
データ配信
データセットは3つのサブセット(Set1-I、Set2-V、Set3-Ted)に分かれており、それぞれ人間の声、動物の鳴き声、楽器の演奏、自然音、人と物体の相互作用音、物体の衝撃音、機械音など、様々な音声カテゴリーをカバーしており、様々なシナリオやコンテンツタイプに適しています。具体的な分布は以下の通りです。
- セット1-Iには、AI生成画像、ウェブスクレイピング、メディアスクリーンショットなど、205組の画像とテキストのペアが含まれています。各画像は視覚入力として使用され、対応する動画/音声キャプションと音声コンテンツは、大規模言語モデル(LLM)と人によるアノテーションによって生成されます。
 - Set2-V には、YouTube と BiliBili からの短いビデオ クリップのサンプル 295 個が含まれており、LLM によって生成された字幕と、自動音声認識 (ASR) 用の Whisper を使用して転記され、手動で検証されたテキストが添付されています。
 - Set3-Ted には、Set2 と同じ注釈プロセスを使用して、2025 年 9 月の TED トーク ビデオが合計 100 サンプル含まれています。
 
