Paper2Poster: 科学論文からマルチモーダルポスター自動生成へ

学術ポスターゲネレーションは、科学コミュニケーションにおいて重要な一方で困難なタスクであり、長いコンテキストを交差させた文書を単一の視覚的に一貫したページに圧縮する必要があります。この課題に対処するために、私たちは初めてのポスターゲネレーション用ベンチマークとメトリックススイートを導入します。これは最近の学会発表論文と著者によって設計されたポスターのペアを作成し、出力を(i)ビジュアル品質—人間が作成したポスターとの意味的一致性、(ii)文章の一貫性—言語の流暢さ、(iii)全体的な評価—VLM(ビジュアル・ランゲージ・モデル)による6つの細かい審美的および情報的基準の評価、そして特に(iv)ペーパークイズ—VLMが生成されたクイズに答えることで測定される論文の核心内容の伝達能力について評価します。このベンチマークに基づいて、私たちは PosterAgent を提案します。これはトップダウンで、視覚的な要素を取り入れたマルチエージェントパイプラインです。(a)パーサーは論文を構造化されたアセットライブラリに要約し、(b)プランナーはテキスト-ビジュアルペアを読み順と空間バランスを保つ二分木レイアウトに配置し、(c)ペインター-コメンター ループはレンダリングコードを実行してオーバーフローを排除し、VLMフィードバックを使用して各パネルの整列を確保することで各パネルを洗練します。私たちの包括的な評価では、GPT-4 の出力は一見魅力的ですが、しばしばノイジーなテキストや低いペーパークイズスコアが見られることを見つけました。また、読者のエンゲージメントが主要な審美的ボトルネックであることがわかりました。人間が設計したポスターは主に視覚的な意味を通じて意味を伝えます。私たちが開発した完全オープンソース版(例:Qwen-2.5 シリーズに基づくもの)は既存の4o駆動型マルチエージェントシステムよりもほぼすべてのメトリックで優れていますが、トークン数は87%少ないです。22ページの論文を最終化されつつ編集可能な .pptx ポスターに変換するのにわずか0.005ドルしかかかりません。これらの結果は次世代の完全自動化されたポスターゲネレーションモデルへの明確な方向性を示しています。コードとデータセットは https://github.com/Paper2Poster/Paper2Poster から利用可能です。