@article{wang2025universe, title={UniVerse-1: Unified Audio-Video Generation via Stitching of Experts}, author={Wang, Duomin and Zuo, Wei and Li, Aojie and Chen, Ling-Hao and Liao, Xinyao and Zhou, Deyu and Yin, Zixin and Dai, Xili and Jiang, Daxin and Yu, Gang}, journal={arXiv preprint arXiv:2509.06155}, year={2025} }

Date

il y a 8 mois

Taille

115.41 MB

Organisation

URL du document

2509.06155

Licence

Apache 2.0

Balises

Text-to-Audio

Génération De Vidéo

Benchmarks

Verse-Bench est un ensemble de données de référence pour l'évaluation de la génération conjointe de contenu audio et vidéo, publié en 2025 par StepFun en collaboration avec l'Université des sciences et technologies de Hong Kong, l'Université des sciences et technologies de Hong Kong (Guangzhou) et d'autres institutions. Les résultats de l'étude sont les suivants :UniVerse-1 : Génération audio-vidéo unifiée via l'assemblage d'experts", qui vise à pousser les modèles génératifs non seulement à générer des vidéos, mais également à maintenir un alignement temporel strict avec le contenu audio (y compris le son ambiant et la parole). L'ensemble de données contient 600 paires d'invites image-texte, provenant de YouTube, Bilibili, d'images vidéo TikTok, de captures d'écran de films/animes, d'images générées par des modèles d'IA et d'images Web publiques.

Distribution des données

L'ensemble de données est divisé en trois sous-ensembles (Set1-I, Set2-V et Set3-Ted), couvrant diverses catégories audio, telles que les voix humaines, les sons d'animaux, la musique instrumentale, les sons naturels, les sons d'interaction homme-objet, les impacts d'objets et les bruits mécaniques, adaptés à différents scénarios et types de contenu. La répartition spécifique est la suivante :

L'ensemble 1-I contient 205 paires image-texte, incluant des images générées par l'IA, des données web scraping et des captures d'écran. Chaque image sert d'entrée visuelle, et les sous-titres vidéo/audio et le contenu vocal correspondants sont générés par un modèle de langage étendu (LLM) et des annotations humaines.
Set2-V contient 295 échantillons de courts clips vidéo de YouTube et BiliBili, qui sont accompagnés de sous-titres générés par LLM et de texte transcrit à l'aide de Whisper pour la reconnaissance automatique de la parole (ASR) et vérifiés manuellement.
Set3-Ted contient 100 échantillons de vidéos de conférences TED de septembre 2025, utilisant le même processus d'annotation que Set2.
Exemple d'ensemble de données

Citation

@article{wang2025universe,
title={UniVerse-1: Unified Audio-Video Generation via Stitching of Experts},
author={Wang, Duomin and Zuo, Wei and Li, Aojie and Chen, Ling-Hao and Liao, Xinyao and Zhou, Deyu and Yin, Zixin and Dai, Xili and Jiang, Daxin and Yu, Gang},
journal={arXiv preprint arXiv:2509.06155},
year={2025}
}

Verse-Bench.torrent

Partage 2Téléchargement 0Terminé 3Total des téléchargements 116

Verse-Bench/
- README.md
  2.45 KB
- README.txt
  4.89 KB

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

il y a 3 heures

Ensemble De Données De Reconstruction d'objets 3D Pour Artistes SAM 3D

dans une heure

Ensemble De Données De Référence FigureBench Pour La Génération d'illustrations Scientifiques

il y a 10 minutes

Ensemble De Données De Saillance Vidéo Panoramique OpenSAL360

il y a 18 jours

Ensemble De Données d'évaluation Comparative Des Agents Intelligents Médicaux chi-bench

il y a 6 jours

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

il y a un jour

Base De Données Sur Les Maladies Des Feuilles De Maïs

il y a 2 mois

Ensemble De Données d'amélioration De La Netteté Pancolor Par Télédétection À Grande Échelle

il y a 2 mois

Ensemble De Données d'évaluation Des Capacités d'analyse Multimodale d'OmniParsingBench

il y a un jour

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

il y a un jour

Ensemble De Données World Model Bench

il y a 2 mois

Ensemble De Données ToolACE Pour l'apprentissage Des Outils Complexes

il y a 3 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données

Discuter sur Discord

Date

il y a 8 mois

Taille

115.41 MB

Organisation

URL du document

2509.06155

Licence

Apache 2.0

Balises

Text-to-Audio

Génération De Vidéo

Benchmarks