Ensemble De Données De Référence Vidéo Sur Papier Paper2Video
Date
Size
Paper URL
License
MIT
Paper2Video est le premier ensemble de données de référence pour l'association papier et vidéo publié par l'Université nationale de Singapour en 2025.Paper2Video : Génération automatique de vidéos à partir d'articles scientifiques", qui vise à fournir une référence standard et une ressource d'évaluation pour la tâche de génération automatique de vidéos de présentation (y compris des diapositives, des sous-titres, des voix et des avatars d'intervenants) à partir d'articles universitaires.
L'ensemble de données contient 101 paires article-vidéo. Chaque article compte en moyenne environ 28,7 pages, contient environ 13 300 mots et 44,7 figures. Chaque vidéo dure en moyenne 6 minutes et 15 secondes, jusqu'à 14 minutes, et comprend en moyenne 16 diapositives. Outre l'article et la vidéo, chaque échantillon comprend également les métadonnées de l'article (titre, lien, conférence et année), une photo de l'intervenant et un extrait vocal.
Composition des données
- Fichier de métadonnées : contient des champs tels que le titre de l'article (paper), le lien de l'article (paper_link), le lien de la vidéo de présentation (presentation_link), le nom de la conférence (conference) et l'année (year) de chaque échantillon.
- Fichiers d'identité d'auteur, qui peuvent être utilisés pour des tâches telles que la synthèse personnalisée des haut-parleurs, le rendu des haut-parleurs et la génération de vidéos d'avatar :
- Chaque auteur doit inclure une image d'identification (par exemple, ref_img.png)
- Échantillons de voix (tels que ref_audio.wav)
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.