8일 전
시간에 무관한 VQGAN과 시간 민감형 Transformer를 활용한 장시간 비디오 생성
Songwei Ge, Thomas Hayes, Harry Yang, Xi Yin, Guan Pang, David Jacobs, Jia-Bin Huang, Devi Parikh

초록
영상은 감정을 표현하고 정보를 공유하며 경험을 나누는 데 사용된다. 영상 합성 기술은 오랫동안 연구자들의 관심을 끌어왔다. 시각적 합성 기술의 발전으로 인해 빠른 진전이 있었음에도 불구하고, 기존의 대부분의 연구는 프레임의 품질과 프레임 간 전환의 질 향상에 집중한 반면, 긴 영상 생성에 대한 진전은 미미했다. 본 논문에서는 3D-VQGAN과 트랜스포머 기반의 기법을 활용하여 수천 프레임에 이르는 영상을 생성하는 방법을 제안한다. 평가 결과, UCF-101, Sky Time-lapse, Taichi-HD 등의 표준 벤치마크 데이터셋에서 추출한 16프레임 영상 클립을 기반으로 학습된 모델이 다양한, 일관성 있는, 고품질의 긴 영상을 생성할 수 있음을 확인하였다. 또한 본 연구는 텍스트와 오디오와 같은 시계열 정보를 통합함으로써 의미 있는 긴 영상을 생성할 수 있는 조건부 확장 방안을 제시한다. 영상 및 코드는 https://songweige.github.io/projects/tats/index.html 에서 확인할 수 있다.