HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Paper2Video: Automatische Videoerstellung aus wissenschaftlichen Papieren

Zeyu Zhu Kevin Qinghong Lin Mike Zheng Shou

Paper2Video: Automatische Videoerstellung aus wissenschaftlichen Papieren

Abstract

Akademische Präsentationsvideos sind zu einem unverzichtbaren Medium der Forschungskommunikation geworden. Ihre Erstellung bleibt jedoch äußerst aufwendig und erfordert oft mehrere Stunden an Gestaltung von Folien, Aufnahme und Nachbearbeitung, um ein kurzes Video von lediglich zwei bis zehn Minuten zu erstellen. Im Gegensatz zu natürlichen Videos birgt die Generierung von Präsentationsvideos besondere Herausforderungen: Sie beinhalten Eingabedaten aus Forschungsarbeiten, dichte multimodale Informationen (Text, Abbildungen, Tabellen) sowie die Koordination mehrerer synchronisierter Kanäle wie Folien, Untertitel, Sprache und menschliche Sprecherdarstellung. Um diesen Herausforderungen zu begegnen, stellen wir PaperTalker vor – den ersten Benchmark, der aus 101 Forschungsarbeiten mit jeweils den von den Autoren erstellten Präsentationsvideos, Folien und Sprecher-Metadaten besteht. Darüber hinaus entwickeln wir vier speziell angepasste Bewertungsmaße – Meta Similarity, PresentArena, PresentQuiz und IP Memory –, um zu messen, wie effektiv die Videos die Inhalte der Forschungsarbeit an das Publikum vermitteln. Auf dieser Grundlage präsentieren wir PaperTalker, den ersten Multi-Agenten-Framework zur Generierung akademischer Präsentationsvideos. Er integriert die Erstellung von Folien mit einer innovativen, effektiven Baum-Such-Visual-Choice für die Layout-Optimierung, Cursor-Positionierung, Untertitelung, Sprachsynthese sowie die Darstellung eines sprechenden Kopfes, wobei die Folien-basierte Generierung parallelisiert wird, um Effizienz zu gewährleisten. Experimente im Rahmen von Paper2Video zeigen, dass die von unserem Ansatz generierten Präsentationsvideos gegenüber bestehenden Baselines treuer und informativer sind und damit einen praktikablen Schritt hin zu einer automatisierten und direkt nutzbaren Generierung akademischer Videos darstellen. Unser Datensatz, die Agenten-Implementierung und der Quellcode sind unter https://github.com/showlab/Paper2Video verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Paper2Video: Automatische Videoerstellung aus wissenschaftlichen Papieren | Forschungsarbeiten | HyperAI