Command Palette
Search for a command to run...
Ensemble De Données De Référence Vidéo Sur Papier Paper2Video
Date
Taille
URL du document
Licence
MIT
Paper2Video est le premier ensemble de données de référence pour l'association papier et vidéo publié par l'Université nationale de Singapour en 2025.Paper2Video : Génération automatique de vidéos à partir d'articles scientifiques", qui vise à fournir une référence standard et une ressource d'évaluation pour la tâche de génération automatique de vidéos de présentation (y compris des diapositives, des sous-titres, des voix et des avatars d'intervenants) à partir d'articles universitaires.
L'ensemble de données contient 101 paires article-vidéo. Chaque article compte en moyenne environ 28,7 pages, contient environ 13 300 mots et 44,7 figures. Chaque vidéo dure en moyenne 6 minutes et 15 secondes, jusqu'à 14 minutes, et comprend en moyenne 16 diapositives. Outre l'article et la vidéo, chaque échantillon comprend également les métadonnées de l'article (titre, lien, conférence et année), une photo de l'intervenant et un extrait vocal.
Composition des données
- Fichier de métadonnées : contient des champs tels que le titre de l'article (paper), le lien de l'article (paper_link), le lien de la vidéo de présentation (presentation_link), le nom de la conférence (conference) et l'année (year) de chaque échantillon.
- Fichiers d'identité d'auteur, qui peuvent être utilisés pour des tâches telles que la synthèse personnalisée des haut-parleurs, le rendu des haut-parleurs et la génération de vidéos d'avatar :
- Chaque auteur doit inclure une image d'identification (par exemple, ref_img.png)
- Échantillons de voix (tels que ref_audio.wav)
Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.