Paper2Video-Benchmark-Datensatz Für Papiervideos
Paper2Video ist der erste Benchmark-Datensatz für die Paarung von Papier und Video, der 2025 von der National University of Singapore veröffentlicht wurde.Paper2Video: Automatische Videogenerierung aus wissenschaftlichen Arbeiten", dessen Ziel es ist, eine Standard-Benchmark- und Bewertungsressource für die Aufgabe bereitzustellen, automatisch Präsentationsvideos (einschließlich Folien, Untertiteln, Stimme und Sprecheravataren) aus wissenschaftlichen Arbeiten zu generieren.
Der Datensatz enthält 101 Paper-Video-Paare. Jedes Paper umfasst durchschnittlich 28,7 Seiten, ca. 13.300 Wörter und 44,7 Abbildungen. Jedes Video ist durchschnittlich ca. 6 Minuten und 15 Sekunden lang (bis zu 14 Minuten) und umfasst durchschnittlich 16 Folien. Zusätzlich zu Paper und Video enthält jede Probe auch Metadaten (einschließlich Titel, Link, Konferenz und Jahr), ein Bild des Sprechers und eine Sprachprobe.
Datenzusammensetzung
- Metadatendatei: Enthält Felder wie den Titel des Papiers (Papier), den Link zum Papier (Papierlink), den Link zum Präsentationsvideo (Präsentationslink), den Namen der Konferenz (Konferenz) und das Jahr (Jahr) jeder Probe.
- Autorenidentitätsdateien, die für Aufgaben wie personalisierte Sprechersynthese, Sprecherrendering und Avatar-Videogenerierung verwendet werden können:
- Jeder Autor sollte ein identifizierendes Bild einfügen (z. B. ref_img.png).
- Sprachbeispiele (z. B. ref_audio.wav)
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.