
초록
미래 세계 상태를 정확히 예측하는 비디오 프레임을 생성하는 것은 어려운 문제입니다. 기존 접근 방식들은 결과의 전체 분포를 포착하지 못하거나, 흐린 생성물을 만들어내거나, 또는 두 가지 모두의 문제가 있습니다. 본 논문에서는 주어진 환경에서 불확실성의 사전 모델을 학습하는 비지도 비디오 생성 모델을 소개합니다. 비디오 프레임은 이 사전 모델에서 샘플을 추출하여 미래 프레임의 결정론적 추정치와 결합하여 생성됩니다. 이 방법은 간단하며 다양한 데이터셋에 대해 끝까지 쉽게 훈련될 수 있습니다. 샘플 생성물은 미래의 많은 프레임에서도 다양하고 선명하며, 기존 접근 방식들보다 우수한 성능을 보입니다.