HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Paper2Video : génération automatique de vidéos à partir d'articles scientifiques

Zeyu Zhu Kevin Qinghong Lin Mike Zheng Shou

Paper2Video : génération automatique de vidéos à partir d'articles scientifiques

Résumé

Les vidéos de présentation académiques sont devenues un moyen essentiel de communication de la recherche, mais leur production reste extrêmement exigeante en temps et en ressources, souvent nécessitant plusieurs heures de conception de diapositives, d’enregistrement et de montage pour produire une vidéo d’une durée de seulement 2 à 10 minutes. Contrairement aux vidéos naturelles, la génération de vidéos de présentation soulève des défis particuliers : elle repose sur des entrées issues d’articles scientifiques, intègre des informations multi-modales denses (texte, figures, tableaux), et exige une coordination précise de plusieurs canaux alignés, tels que les diapositives, les sous-titres, la parole et la représentation d’un locuteur humain. Pour relever ces défis, nous introduisons PaperTalker, le premier benchmark comprenant 101 articles scientifiques accompagnés de vidéos de présentation créées par les auteurs, ainsi que des diapositives et des métadonnées du locuteur. Nous proposons également quatre métriques d’évaluation spécifiquement conçues — Meta Similarity, PresentArena, PresentQuiz et IP Memory — afin d’évaluer la capacité des vidéos à transmettre efficacement l’information contenue dans l’article aux spectateurs. Sur cette base, nous présentons PaperTalker, le premier cadre multi-agents dédié à la génération automatique de vidéos de présentation académiques. Ce système intègre la génération de diapositives avec un raffinement efficace de la mise en page grâce à une nouvelle méthode de recherche arborescente pour le choix visuel, le repérage du curseur, la création de sous-titres, la synthèse vocale et la génération de visages parlants, tout en parallélisant la génération diapositive par diapositive pour optimiser l’efficacité. Des expériences menées sur le jeu de données Paper2Video montrent que les vidéos produites par notre approche sont plus fidèles et plus informatives que les méthodes existantes, marquant ainsi une avancée concrète vers une génération automatisée et prête à l’emploi de vidéos académiques. Notre jeu de données, l’agent et le code sont disponibles à l’adresse suivante : https://github.com/showlab/Paper2Video.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Paper2Video : génération automatique de vidéos à partir d'articles scientifiques | Articles de recherche | HyperAI