Command Palette

Search for a command to run...

Verse-Benchオーディオビジュアル共同生成評価データセット

Discordコミュニティに参加

Verse-Benchは、StepFunが香港科技大学、香港科技大学(広州)などの機関と共同で2025年に公開した、音声と動画の共同生成を評価するためのベンチマークデータセットです。関連する論文の結果は「UniVerse-1: 専門家のスティッチングによる統合オーディオビデオ生成」は、生成モデルがビデオを生成するだけでなく、オーディオコンテンツ(周囲の音や音声を含む)との厳密な時間的整合を維持することを目指しています。

このデータセットには、YouTube、Bilibili、TikTok のビデオ フレーム、映画/アニメのスクリーンショット、AI モデル生成画像、公開 Web 画像から取得した 600 個の画像とテキストのプロンプトのペアが含まれています。

データ配信

データセットは3つのサブセット(Set1-I、Set2-V、Set3-Ted)に分かれており、それぞれ人間の声、動物の鳴き声、楽器の演奏、自然音、人と物体の相互作用音、物体の衝撃音、機械音など、様々な音声カテゴリーをカバーしており、様々なシナリオやコンテンツタイプに適しています。具体的な分布は以下の通りです。

  • セット1-Iには、AI生成画像、ウェブスクレイピング、メディアスクリーンショットなど、205組の画像とテキストのペアが含まれています。各画像は視覚入力として使用され、対応する動画/音声キャプションと音声コンテンツは、大規模言語モデル(LLM)と人によるアノテーションによって生成されます。
  • Set2-V には、YouTube と BiliBili からの短いビデオ クリップのサンプル 295 個が含まれており、LLM によって生成された字幕と、自動音声認識 (ASR) 用の Whisper を使用して転記され、手動で検証されたテキストが添付されています。
  • Set3-Ted には、Set2 と同じ注釈プロセスを使用して、2025 年 9 月の TED トーク ビデオが合計 100 サンプル含まれています。
データセットの例

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Verse-Benchオーディオビジュアル共同生成評価データセット | データセット | HyperAI超神経