16일 전
VideoPoet: 제로샷 비디오 생성을 위한 대규모 언어 모델
Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang

초록
우리는 다양한 조건 신호로부터 고품질의 영상과 일치하는 오디오를 합성할 수 있는 언어 모델인 VideoPoet를 제안한다. VideoPoet는 이미지, 영상, 텍스트, 오디오 등 다중 모달 입력을 처리하는 디코더 전용 트랜스포머 아키텍처를 활용한다. 학습 프로토콜은 대규모 언어 모델(Large Language Models, LLM)의 방식을 따르며, 두 단계로 구성된다: 사전 학습과 작업별 적응. 사전 학습 단계에서는 VideoPoet가 순차적(autoregressive) 트랜스포머 프레임워크 내에서 다중 모달 생성 목표의 혼합을 포함한다. 사전 학습된 LLM은 다양한 영상 생성 작업에 적응할 수 있는 기반 모델로 활용된다. 본 연구에서는 영상 생성의 제로샷(zero-shot) 성능 측면에서 모델의 최신 기술 수준을 입증하는 실험 결과를 제시하며, 특히 VideoPoet가 고해상도의 자연스러운 움직임을 생성할 수 있는 능력을 강조한다. 프로젝트 페이지: http://sites.research.google/videopoet/