7일 전

VideoGPT: VQ-VAE와 Transformers를 이용한 비디오 생성

Wilson Yan, Yunzhi Zhang, Pieter Abbeel, Aravind Srinivas
VideoGPT: VQ-VAE와 Transformers를 이용한 비디오 생성
초록

우리는 자연 영상에 대한 확률 기반 생성 모델링을 확장하기 위한 개념적으로 간단한 아키텍처인 VideoGPT를 제안한다. VideoGPT는 3D 컨볼루션과 축 방향(self-attention)을 활용하여 원시 영상의 저해상도 이산 잠재 표현을 학습하는 VQ-VAE를 사용한다. 이후 간단한 GPT 유사 아키텍처를 활용해 시공간적 위치 인코딩을 사용하여 이산 잠재 변수를 자동 회귀적으로 모델링한다. 구성과 학습의 간단함에도 불구하고, 본 아키텍처는 BAIR 로봇 데이터셋에서 최신 GAN 모델과 경쟁 가능한 샘플을 생성할 수 있으며, UCF-101 및 Tumbler GIF 데이터셋(TGIF)에서 고해상도의 자연스러운 영상을 생성할 수 있다. 본 연구에서 제안하는 아키텍처가 트랜스포머 기반 영상 생성 모델의 최소한의 구현을 위한 재현 가능한 참고 자료로 활용되길 기대한다. 샘플 및 코드는 https://wilson1yan.github.io/videogpt/index.html 에서 확인할 수 있다.

VideoGPT: VQ-VAE와 Transformers를 이용한 비디오 생성 | 최신 연구 논문 | HyperAI초신경