
초록
비디오 시퀀스의 미래 프레임을 예측하는 것은 도전적인 생성 모델링 작업입니다. 유망한 접근 방식에는 변분 오토인코더(Variational Auto-Encoder, VAE)와 같은 확률적 잠재 변수 모델이 포함됩니다. VAE는 불확실성을 처리하고 여러 가능한 미래 결과를 모델링할 수 있지만, 흐린 예측을 생성하는 경향이 있습니다. 본 연구에서는 이러한 현상이 과소적합(underfitting)의 징후라고 주장합니다. 이 문제를 해결하기 위해, 우리는 잠재 분포의 표현력을 높이고 더 큰 용량의 우도 모델을 사용하는 방법을 제안합니다. 우리의 접근 방식은 유연한 사전 및 사후 분포를 정의하여 미래 시퀀스의 확률을 더 잘 모델링하기 위한 잠재 변수의 계층 구조에 기반합니다. 우리는 일련의 절차 실험(ablation experiments)을 통해 제안된 방법을 검증하고, 현재 최신 잠재 변수 모델들과 비교하였습니다. 우리의 방법은 세 가지 다른 데이터셋에서 여러 지표 하에서 유리한 성능을 보였습니다.