HyperAI

Verse-Benchは、StepFunが香港科技大学、香港科技大学（広州）などの機関と共同で2025年に公開した、音声と動画の共同生成を評価するためのベンチマークデータセットです。関連する論文の結果は「UniVerse-1: 専門家のスティッチングによる統合オーディオビデオ生成」は、生成モデルがビデオを生成するだけでなく、オーディオコンテンツ（周囲の音や音声を含む）との厳密な時間的整合を維持することを目指しています。

このデータセットには、YouTube、Bilibili、TikTok のビデオフレーム、映画/アニメのスクリーンショット、AI モデル生成画像、公開 Web 画像から取得した 600 個の画像とテキストのプロンプトのペアが含まれています。

データ配信

データセットは3つのサブセット（Set1-I、Set2-V、Set3-Ted）に分かれており、それぞれ人間の声、動物の鳴き声、楽器の演奏、自然音、人と物体の相互作用音、物体の衝撃音、機械音など、様々な音声カテゴリーをカバーしており、様々なシナリオやコンテンツタイプに適しています。具体的な分布は以下の通りです。

セット1-Iには、AI生成画像、ウェブスクレイピング、メディアスクリーンショットなど、205組の画像とテキストのペアが含まれています。各画像は視覚入力として使用され、対応する動画/音声キャプションと音声コンテンツは、大規模言語モデル（LLM）と人によるアノテーションによって生成されます。
Set2-V には、YouTube と BiliBili からの短いビデオクリップのサンプル 295 個が含まれており、LLM によって生成された字幕と、自動音声認識 (ASR) 用の Whisper を使用して転記され、手動で検証されたテキストが添付されています。
Set3-Ted には、Set2 と同じ注釈プロセスを使用して、2025 年 9 月の TED トークビデオが合計 100 サンプル含まれています。

Verse-Benchオーディオビジュアル共同生成評価データセット

データ配信

AI で AI を構築

Hyper Newsletters

Command Palette

Verse-Benchオーディオビジュアル共同生成評価データセット

データ配信

AI で AI を構築

Hyper Newsletters