HyperAIHyperAI

Command Palette

Search for a command to run...

Verse-Benchオーディオビジュアル共同生成評価データセット

日付

7ヶ月前

サイズ

115.41 MB

データセット構成

StepFun 阶跃星辰
The Hong Kong University of Science and Technology
The Hong Kong University of Science and Technology(GuangZhou)

Paper URL

2509.06155

ライセンス

Apache 2.0

Verse-Benchは、StepFunが香港科技大学、香港科技大学(広州)などの機関と共同で2025年に公開した、音声と動画の共同生成を評価するためのベンチマークデータセットです。関連する論文の結果は「UniVerse-1: 専門家のスティッチングによる統合オーディオビデオ生成」は、生成モデルがビデオを生成するだけでなく、オーディオコンテンツ(周囲の音や音声を含む)との厳密な時間的整合を維持することを目指しています。 このデータセットには、YouTube、Bilibili、TikTok のビデオ フレーム、映画/アニメのスクリーンショット、AI モデル生成画像、公開 Web 画像から取得した 600 個の画像とテキストのプロンプトのペアが含まれています。

データ配信

データセットは3つのサブセット(Set1-I、Set2-V、Set3-Ted)に分かれており、それぞれ人間の声、動物の鳴き声、楽器の演奏、自然音、人と物体の相互作用音、物体の衝撃音、機械音など、様々な音声カテゴリーをカバーしており、様々なシナリオやコンテンツタイプに適しています。具体的な分布は以下の通りです。

  • セット1-Iには、AI生成画像、ウェブスクレイピング、メディアスクリーンショットなど、205組の画像とテキストのペアが含まれています。各画像は視覚入力として使用され、対応する動画/音声キャプションと音声コンテンツは、大規模言語モデル(LLM)と人によるアノテーションによって生成されます。
  • Set2-V には、YouTube と BiliBili からの短いビデオ クリップのサンプル 295 個が含まれており、LLM によって生成された字幕と、自動音声認識 (ASR) 用の Whisper を使用して転記され、手動で検証されたテキストが添付されています。
  • Set3-Ted には、Set2 と同じ注釈プロセスを使用して、2025 年 9 月の TED トーク ビデオが合計 100 サンプル含まれています。
    データセットの例
    データセットの例
Verse-Bench.torrent
シーディング 1ダウンロード中 0完了 1総ダウンロード数 86
  • Verse-Bench/
    • README.md
      2.45 KB
    • README.txt
      4.89 KB
      • data/
        • Verse-Bench.zip
          115.41 MB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Verse-Benchオーディオビジュアル共同生成評価データセット | データセット | HyperAI超神経