Command Palette

Search for a command to run...

한 달 전

Paper2Video: 과학 논문에서의 자동 영상 생성

Zeyu Zhu Kevin Qinghong Lin Mike Zheng Shou

Paper2Video: 과학 논문에서의 자동 영상 생성

초록

학술 발표 영상은 연구 커뮤니케이션을 위한 필수적인 매체로 자리 잡았으나, 그 제작 과정은 여전히 매우 수작업에 가까우며, 단 2~10분 분량의 영상을 만들기 위해 슬라이드 설계, 녹음, 편집에 수시간이 소요된다. 자연 영상과 달리, 발표 영상 생성은 연구 논문에서 입력을 받고, 텍스트, 그림, 표 등 밀도 높은 다중 모달 정보를 처리하며, 슬라이드, 자막, 음성, 인간 발표자와 같은 여러 채널을 정확히 동기화해야 하는 특유의 도전 과제를 안고 있다. 이러한 문제를 해결하기 위해 우리는 101편의 연구 논문과 저자들이 직접 제작한 발표 영상, 슬라이드, 발표자 메타데이터를 짝지은 최초의 벤치마크인 PaperTalker를 소개한다. 이를 바탕으로 발표 영상이 논문의 정보를 청중에게 얼마나 효과적으로 전달하는지를 평가하기 위해 네 가지 맞춤형 평가 지표—Meta Similarity, PresentArena, PresentQuiz, IP Memory—를 설계하였다. 이러한 기반 위에서 우리는 학술 발표 영상 생성을 위한 최초의 다중 에이전트 프레임워크인 PaperTalker를 제안한다. 이 프레임워크는 새로운 효과적인 트리 탐색 시각 선택 기법을 활용해 슬라이드 생성과 효과적인 레이아웃 개선을 통합하고, 커서 고정, 자막 생성, 음성 합성, 대화형 헤드 렌더링을 효율적으로 조화시킨다. 또한 슬라이드 단위의 병렬 생성을 통해 처리 효율성을 극대화한다. Paper2Video에 대한 실험 결과에 따르면, 제안한 방법으로 생성된 발표 영상은 기존 베이스라인 대비 더 정확하고 정보량이 풍부함을 입증하였으며, 자동화되고 즉시 활용 가능한 학술 영상 생성을 위한 실질적인 발걸음을 내딛었다. 본 연구의 데이터셋, 에이전트, 코드는 https://github.com/showlab/Paper2Video 에서 공개되어 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp