
초록
영상 생성에서 시간적 일관성의 두 가지 병리적 사례인 영상 정지(video freezing)와 영상 루프(video looping)를 식별한다. 시간적 다양성을 보다 정량적으로 측정하기 위해, 효과적이고 구현이 간편하며 데이터에 종속되지 않으며 해석이 가능한 보완적 지표들을 제안한다. 또한 현재 최첨단 모델들이 고정된 길이의 영상 샘플로 훈련되기 때문에 장기적 모델링이 제한된다는 점을 관찰한다. 이를 해결하기 위해 영상 생성 문제를 마르코프 결정 과정(Markov Decision Process, MDP)으로 재정의한다. 핵심 아이디어는 고정된 길이 제약을 극복하고 시간적 아티팩트를 완화하기 위해 운동을 무한한 예측 환경을 갖춘 확률적 과정으로 표현하는 것이다. 제안하는 설정이 최첨단 MoCoGAN 프레임워크에 쉽게 통합될 수 있음을 보여준다. Human Actions 및 UCF-101 데이터셋에서의 실험 결과, MDP 기반 모델이 기존 지표와 새로운 지표 모두에서 영상 품질을 향상시키며, 메모리 효율성도 더욱 뛰어남을 입증한다.