
초록
일부 기준 프레임(또는 과거 프레임)이 주어졌을 때 미래 프레임을 생성하는 것은 도전적인 과제이다. 이는 영상의 시간적 일관성을 모델링하고, 잠재적인 미래 상태들 사이의 다양성 측면에서 다중모달성을 고려해야 하기 때문이다. 현재 영상 생성을 위한 변분 접근법은 다중모달 미래 결과에 대해 통합(마진화)하는 경향이 있다. 반면에, 우리는 미래 결과의 다중모달성을 명시적으로 모델링하고, 이를 활용하여 다양한 미래를 샘플링하는 방식을 제안한다. 본 연구에서 제안하는 Diverse Video Generator는 과거 정보를 바탕으로 미래 상태에 대한 사전 분포를 가우시안 프로세스(GP)를 통해 학습하며, 특정 샘플이 주어졌을 때 가능한 미래들에 대한 확률 분포를 유지한다. 또한, 이 분포가 시간에 따라 변화하는 특성을 활용하여, 현재 진행 중인 시퀀스의 종료를 추정함으로써 다양한 미래 상태를 샘플링하는 과정을 제어한다. 구체적으로, 출력 함수 공간에서 GP의 분산을 이용해 동작 시퀀스의 변화를 유도한다. 제안한 방법은 재구성 품질과 생성된 시퀀스의 다양성 측면에서 다양한 미래 프레임 생성 작업에서 최신 기술 수준의 성능을 달성하였다.