9일 전

비디오 예측을 위한 VQ-VAE

Jacob Walker, Ali Razavi, Aäron van den Oord
비디오 예측을 위한 VQ-VAE
초록

최근 몇 년 동안, 과거 영상 프레임을 바탕으로 미래 영상을 예측하는 영상 예측(video prediction) 작업이 연구계에서 주목받고 있다. 본 논문에서는 벡터 양자화 변분 오토인코더(VQ-VAE)를 활용한 새로운 접근 방식을 제안한다. VQ-VAE를 통해 고해상도 영상을 계층적인 다중 스케일 이산 잠재 변수 집합으로 압축할 수 있다. 픽셀과 비교할 때 이 압축된 잠재 공간은 차원 수가 크게 감소하여, 확장 가능한 자기회귀적 생성 모델을 영상 예측에 적용할 수 있게 한다. 이전 연구들이 주로 제약이 강한 데이터셋에 집중한 것과 달리, 본 연구는 Kinetics-600과 같은 매우 다양하고 대규모의 데이터셋에 초점을 맞춘다. 기존의 어떤 방법보다도 더 높은 해상도인 256x256에서 제약 없이 구성된 영상에 대해 영상 예측을 수행한다. 또한, 타인의 연구와의 비교를 위해 커뮤니티 기반의 인간 평가를 통해 본 방법의 유효성을 추가로 검증하였다.

비디오 예측을 위한 VQ-VAE | 최신 연구 논문 | HyperAI초신경