HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Verse-Benchオーディオビジュアル共同生成評価データセット

Date

2ヶ月前

Size

115.41 MB

Organization

ステップファン
香港科技大学
香港科技大学(広州)

Paper URL

2509.06155

License

Apache 2.0

Verse-Benchは、StepFunが香港科技大学、香港科技大学(広州)などの機関と共同で2025年に公開した、音声と動画の共同生成を評価するためのベンチマークデータセットです。関連する論文の結果は「UniVerse-1: 専門家のスティッチングによる統合オーディオビデオ生成」は、生成モデルがビデオを生成するだけでなく、オーディオコンテンツ(周囲の音や音声を含む)との厳密な時間的整合を維持することを目指しています。

このデータセットには、YouTube、Bilibili、TikTok のビデオ フレーム、映画/アニメのスクリーンショット、AI モデル生成画像、公開 Web 画像から取得した 600 個の画像とテキストのプロンプトのペアが含まれています。

データ配信

データセットは3つのサブセット(Set1-I、Set2-V、Set3-Ted)に分かれており、それぞれ人間の声、動物の鳴き声、楽器の演奏、自然音、人と物体の相互作用音、物体の衝撃音、機械音など、様々な音声カテゴリーをカバーしており、様々なシナリオやコンテンツタイプに適しています。具体的な分布は以下の通りです。

  • セット1-Iには、AI生成画像、ウェブスクレイピング、メディアスクリーンショットなど、205組の画像とテキストのペアが含まれています。各画像は視覚入力として使用され、対応する動画/音声キャプションと音声コンテンツは、大規模言語モデル(LLM)と人によるアノテーションによって生成されます。
  • Set2-V には、YouTube と BiliBili からの短いビデオ クリップのサンプル 295 個が含まれており、LLM によって生成された字幕と、自動音声認識 (ASR) 用の Whisper を使用して転記され、手動で検証されたテキストが添付されています。
  • Set3-Ted には、Set2 と同じ注釈プロセスを使用して、2025 年 9 月の TED トーク ビデオが合計 100 サンプル含まれています。
データセットの例

Verse-Bench.torrent
Seeding 2Downloading 0Completed 0Total Downloads 19
  • Verse-Bench/
    • README.md
      2.45 KB
    • README.txt
      4.89 KB
      • data/
        • Verse-Bench.zip
          115.41 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています