从科学论文到多模态海报自动化:Paper2Poster
Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
发布日期: 5/28/2025

摘要
学术海报生成是科学交流中一个至关重要的但又充满挑战的任务,需要将长篇幅的交错文档压缩成一页视觉上连贯的内容。为了解决这一挑战,我们引入了首个用于海报生成的基准测试和度量套件,该套件将近期会议论文与其作者设计的海报配对,并从以下几个方面评估输出结果:(i) 视觉质量——与人工制作的海报在语义上的对齐;(ii) 文本连贯性——语言流畅度;(iii) 综合评估——由视觉语言模型(VLM)作为评判者,根据六个细粒度的美学和信息标准进行评分;以及显著的 (iv) 论文测验(PaperQuiz)——通过视觉语言模型回答生成的测验来衡量海报传达核心论文内容的能力。基于这一基准测试,我们提出了 PosterAgent,这是一种自上而下、以视觉为中心的多代理管道:(a) 解析器将论文提炼成一个结构化的资产库;(b) 规划器将文本-视觉对齐对转换为二叉树布局,以保留阅读顺序和空间平衡;(c) 画家-评论家循环通过执行渲染代码并利用视觉语言模型反馈来消除溢出并确保对齐,从而精炼每个面板。在我们的全面评估中发现,尽管 GPT-4o 的输出在初看时具有吸引力,但通常表现出文本噪声大和较差的论文测验得分。此外,我们发现读者参与度是主要的美学瓶颈,因为人工设计的海报主要依赖于视觉语义来传达意义。我们的完全开源变体(例如基于 Qwen-2.5 系列)在几乎所有指标上都优于现有的 4o 驱动多代理系统,并且使用的标记数量减少了 87%。它能够将一篇 22 页的论文转化为最终可编辑的 .pptx 海报——整个过程仅需 0.005 美元。这些发现为下一代全自动海报生成模型的发展指明了明确的方向。代码和数据集可在 https://github.com/Paper2Poster/Paper2Poster 获取。