Ensemble De Données d'évaluation De La Génération Conjointe Audiovisuelle Verse-Bench
Date
Size
Paper URL
License
Apache 2.0
Verse-Bench est un ensemble de données de référence pour l'évaluation de la génération conjointe de contenu audio et vidéo, publié en 2025 par StepFun en collaboration avec l'Université des sciences et technologies de Hong Kong, l'Université des sciences et technologies de Hong Kong (Guangzhou) et d'autres institutions. Les résultats de l'étude sont les suivants :UniVerse-1 : Génération audio-vidéo unifiée via l'assemblage d'experts", qui vise à pousser les modèles génératifs non seulement à générer des vidéos, mais également à maintenir un alignement temporel strict avec le contenu audio (y compris le son ambiant et la parole).
L'ensemble de données contient 600 paires d'invites image-texte, provenant de YouTube, Bilibili, d'images vidéo TikTok, de captures d'écran de films/animes, d'images générées par des modèles d'IA et d'images Web publiques.
Distribution des données
L'ensemble de données est divisé en trois sous-ensembles (Set1-I, Set2-V et Set3-Ted), couvrant diverses catégories audio, telles que les voix humaines, les sons d'animaux, la musique instrumentale, les sons naturels, les sons d'interaction homme-objet, les impacts d'objets et les bruits mécaniques, adaptés à différents scénarios et types de contenu. La répartition spécifique est la suivante :
- L'ensemble 1-I contient 205 paires image-texte, incluant des images générées par l'IA, des données web scraping et des captures d'écran. Chaque image sert d'entrée visuelle, et les sous-titres vidéo/audio et le contenu vocal correspondants sont générés par un modèle de langage étendu (LLM) et des annotations humaines.
- Set2-V contient 295 échantillons de courts clips vidéo de YouTube et BiliBili, qui sont accompagnés de sous-titres générés par LLM et de texte transcrit à l'aide de Whisper pour la reconnaissance automatique de la parole (ASR) et vérifiés manuellement.
- Set3-Ted contient 100 échantillons de vidéos de conférences TED de septembre 2025, utilisant le même processus d'annotation que Set2.

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.