HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Ensemble De Données d'évaluation De La Génération Conjointe Audiovisuelle Verse-Bench

Date

il y a 2 mois

Size

115.41 MB

Organization

StepFun
L'Université des sciences et technologies de Hong Kong
Université des sciences et technologies de Hong Kong (GuangZhou)

Paper URL

2509.06155

License

Apache 2.0

Verse-Bench est un ensemble de données de référence pour l'évaluation de la génération conjointe de contenu audio et vidéo, publié en 2025 par StepFun en collaboration avec l'Université des sciences et technologies de Hong Kong, l'Université des sciences et technologies de Hong Kong (Guangzhou) et d'autres institutions. Les résultats de l'étude sont les suivants :UniVerse-1 : Génération audio-vidéo unifiée via l'assemblage d'experts", qui vise à pousser les modèles génératifs non seulement à générer des vidéos, mais également à maintenir un alignement temporel strict avec le contenu audio (y compris le son ambiant et la parole).

L'ensemble de données contient 600 paires d'invites image-texte, provenant de YouTube, Bilibili, d'images vidéo TikTok, de captures d'écran de films/animes, d'images générées par des modèles d'IA et d'images Web publiques.

Distribution des données

L'ensemble de données est divisé en trois sous-ensembles (Set1-I, Set2-V et Set3-Ted), couvrant diverses catégories audio, telles que les voix humaines, les sons d'animaux, la musique instrumentale, les sons naturels, les sons d'interaction homme-objet, les impacts d'objets et les bruits mécaniques, adaptés à différents scénarios et types de contenu. La répartition spécifique est la suivante :

  • L'ensemble 1-I contient 205 paires image-texte, incluant des images générées par l'IA, des données web scraping et des captures d'écran. Chaque image sert d'entrée visuelle, et les sous-titres vidéo/audio et le contenu vocal correspondants sont générés par un modèle de langage étendu (LLM) et des annotations humaines.
  • Set2-V contient 295 échantillons de courts clips vidéo de YouTube et BiliBili, qui sont accompagnés de sous-titres générés par LLM et de texte transcrit à l'aide de Whisper pour la reconnaissance automatique de la parole (ASR) et vérifiés manuellement.
  • Set3-Ted contient 100 échantillons de vidéos de conférences TED de septembre 2025, utilisant le même processus d'annotation que Set2.
Exemple d'ensemble de données

Verse-Bench.torrent
Seeding 2Downloading 0Completed 0Total Downloads 19
  • Verse-Bench/
    • README.md
      2.45 KB
    • README.txt
      4.89 KB
      • data/
        • Verse-Bench.zip
          115.41 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp