Snap Video: 텍스트-비디오 합성용 확장된 시공간 트랜스포머

현재의 이미지 생성 모델들은 놀라운 품질과 유연성을 보이고 있다. 이러한 장점을 고려하여 연구계는 이들 모델을 비디오 생성에 재활용하고 있다. 그러나 비디오 콘텐츠는 매우 높은 중복성을 지니고 있기 때문에, 이미지 모델의 최신 기술을 그대로 비디오 생성 분야에 적용하는 것은 운동의 정확성(motion fidelity), 시각적 품질을 저하시키고 확장성(scalability)에도 악영향을 미친다고 주장한다. 본 연구에서는 이러한 문제를 체계적으로 해결하는 '비디오 중심'의 모델인 Snap Video를 제안한다. 이를 위해 먼저, 공간적 및 시간적 중복성을 고려할 수 있도록 EDM(Exponential Diffusion Model) 프레임워크를 확장하여 자연스럽게 비디오 생성을 지원한다. 또한, 이미지 생성의 핵심 기술로 사용되는 U-Net 아키텍처가 비디오 생성 시 성능이 크게 저하되며, 상당한 계산 부담을 유발함을 보여준다. 따라서 U-Net보다 훨씬 빠른 학습 속도(3.31배 빠름)와 추론 속도(약 4.5배 빠름)를 갖춘 새로운 트랜스포머 기반 아키텍처를 제안한다. 이를 통해 최초로 수십억 파라미터를 가진 텍스트-비디오 모델을 효율적으로 학습할 수 있게 되었으며, 다양한 벤치마크에서 최상위 성능을 달성하고, 훨씬 높은 품질, 시간적 일관성, 그리고 복잡한 움직임을 갖춘 비디오 생성이 가능해졌다. 사용자 실험 결과에서도 본 모델이 최근의 최신 기법들에 비해 압도적으로 선호되는 것으로 나타났다. 자세한 내용은 웹사이트 https://snap-research.github.io/snapvideo/ 에서 확인할 수 있다.