HyperAI

Paper2Poster : Vers l'automatisation multimodale des affiches à partir d'articles scientifiques

Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
Date de publication: 5/28/2025
Paper2Poster : Vers l'automatisation multimodale des affiches à partir d'articles scientifiques
Résumé

La génération d'affiches académiques est une tâche cruciale mais complexe dans la communication scientifique, nécessitant la compression de documents à contexte long et intercalaire en une seule page visuellement cohérente. Pour relever ce défi, nous présentons le premier ensemble de benchmarks et de métriques pour la génération d'affiches, qui associe des articles de conférence récents avec des affiches conçues par leurs auteurs et évalue les résultats sur (i) la Qualité Visuelle - l'alignement sémantique avec les affiches humaines, (ii) la Cohérence Textuelle - la fluidité linguistique, (iii) l'Évaluation Holistique - six critères esthétiques et informatifs fins notés par un modèle de vision-langage (VLM) en tant que juge, et notablement (iv) le Quiz du Papier - la capacité de l'affiche à transmettre le contenu central du papier, mesurée par des VLMs répondant à des quiz générés.Sur la base de ce benchmark, nous proposons PosterAgent, un pipeline multi-agents dirigé du haut vers le bas et intégrant une boucle visuelle : (a) le Parser extrait le papier pour créer une bibliothèque d'actifs structurée ; (b) le Planner aligne les paires texte-visuel dans une disposition en arbre binaire qui préserve l'ordre de lecture et l'équilibre spatial ; et (c) la boucle Painter-Commentateur affine chaque panneau en exécutant du code de rendu et en utilisant les retours d'un VLM pour éliminer les débordements et assurer l'alignement.Dans notre évaluation exhaustive, nous constatons que les sorties GPT-4, bien qu'attrayantes visuellement au premier abord, présentent souvent un texte bruyant et des scores faibles au Quiz du Papier. Nous observons également que l'engagement du lecteur constitue la principale bouteille d'amélioration esthétique, car les affiches conçues par des humains s'appuient largement sur la sémantique visuelle pour transmettre leur message. Nos variantes entièrement open-source (par exemple, basées sur la série Qwen-2.5) surpassent les systèmes multi-agents existants pilotés par GPT-4 sur presque toutes les métriques tout en utilisant 87% moins de jetons. Elles transforment un article de 22 pages en une affiche .pptx finalisée mais modifiable - tout cela pour seulement 0,005 €. Ces résultats tracent des orientations claires pour la prochaine génération de modèles entièrement automatisés de génération d'affiches. Le code source et les jeux de données sont disponibles sur https://github.com/Paper2Poster/Paper2Poster.