7일 전
VideoGPT: VQ-VAE와 Transformers를 이용한 비디오 생성
Wilson Yan, Yunzhi Zhang, Pieter Abbeel, Aravind Srinivas

초록
우리는 자연 영상에 대한 확률 기반 생성 모델링을 확장하기 위한 개념적으로 간단한 아키텍처인 VideoGPT를 제안한다. VideoGPT는 3D 컨볼루션과 축 방향(self-attention)을 활용하여 원시 영상의 저해상도 이산 잠재 표현을 학습하는 VQ-VAE를 사용한다. 이후 간단한 GPT 유사 아키텍처를 활용해 시공간적 위치 인코딩을 사용하여 이산 잠재 변수를 자동 회귀적으로 모델링한다. 구성과 학습의 간단함에도 불구하고, 본 아키텍처는 BAIR 로봇 데이터셋에서 최신 GAN 모델과 경쟁 가능한 샘플을 생성할 수 있으며, UCF-101 및 Tumbler GIF 데이터셋(TGIF)에서 고해상도의 자연스러운 영상을 생성할 수 있다. 본 연구에서 제안하는 아키텍처가 트랜스포머 기반 영상 생성 모델의 최소한의 구현을 위한 재현 가능한 참고 자료로 활용되길 기대한다. 샘플 및 코드는 https://wilson1yan.github.io/videogpt/index.html 에서 확인할 수 있다.