HyperAI초신경

Paper2Poster: 과학 논문에서 다중 모달 포스터 자동화로의 발전

Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr
발행일: 5/28/2025
Paper2Poster: 과학 논문에서 다중 모달 포스터 자동화로의 발전
초록

학술 포스터 생성은 과학적 커뮤니케이션에서 중요한데도 불구하고 어려운 작업으로, 긴 문맥을 가진 중첩된 문서를 시각적으로 일관된 단일 페이지로 압축해야 합니다. 이 문제를 해결하기 위해, 우리는 포스터 생성을 위한 첫 번째 벤치마크와 메트릭 스위트를 소개합니다. 이 벤치마크는 최근 학회 논문과 저자가 설계한 포스터를 짝지어 (i)시각적 품질-인간이 만든 포스터와의 의미적 일치성, (ii)텍스트 일관성-언어 유창성, (iii)전반적인 평가-VLM-as-judge(비주얼 언어 모델을 심판으로 사용)에 의해 채점되는 6개의 세부 미적 및 정보 기준, 그리고 특히 (iv)논문 퀴즈-VLMs(비주얼 언어 모델들)가 생성된 퀴즈를 통해 측정한 포스터의 핵심 논문 내용 전달 능력 등을 평가합니다.이 벤치마크를 바탕으로, 우리는 상향식(top-down), 시각적 피드백 루프(visual-in-the-loop) 다중 에이전트 파이프라인인 PosterAgent를 제안합니다. (a)Parser는 논문을 구조화된 자산 라이브러리로 추출하고, (b)Planner는 텍스트-시각적 쌍들을 읽기 순서와 공간 균형을 유지하는 이진 트리 레이아웃으로 정렬하며, (c)Painter-Commenter 루프는 렌더링 코드 실행과 VLM 피드백을 사용하여 각 패널의 오버플로우를 제거하고 일치성을 보장하여 개선합니다.우리의 종합적인 평가 결과에 따르면, GPT-4 출력물은 첫눈에는 시각적으로 매력적이지만 종종 노이즈가 많은 텍스트와 낮은 PaperQuiz 점수를 보입니다. 또한 독자 참여가 주요 미적 병목 현상임을 발견했습니다. 인간이 설계한 포스터는 대부분 의미 전달을 위해 시각적 의미론에 크게 의존하기 때문입니다. 우리의 완전 오픈 소스 변형(Qwen-2.5 시리즈 기반 등)은 거의 모든 메트릭에서 기존 4o 주도 다중 에이전트 시스템보다 우수한 성능을 보이며, 87% 적은 토큰을 사용합니다. 22페이지짜리 논문을 완성되면서도 수정 가능한 .pptx 포스터로 변환하는데 불과 $0.005만 필요합니다.이 연구 결과는 완전 자동화된 다음 세대의 포스터 생성 모델에 대한 명확한 방향성을 제시합니다. 코드와 데이터셋은 https://github.com/Paper2Poster/Paper2Poster에서 제공됩니다.