MCVD: 예측, 생성 및 보간을 위한 마스킹 조건부 비디오 확산

비디오 예측은 도전적인 과제이다. 현재 최첨단(SOTA) 생성 모델에서 생성되는 비디오 프레임의 품질은 일반적으로 낮으며, 학습 데이터를 벗어난 일반화 역시 어렵다. 게다가 기존의 예측 프레임워크는 보통 조건부 생성 또는 보간과 같은 다른 비디오 관련 작업을 동시에 처리할 수 없다. 본 연구에서는 과거 및/또는 미래 프레임을 조건으로 하여 확률적 조건부 스코어 기반의 노이즈 제거 확산 모델을 활용하여, 이러한 모든 비디오 합성 작업을 위한 일반 목적의 프레임워크인 Masked Conditional Video Diffusion(MCVD)을 제안한다. 우리는 모델을 학습할 때 과거 프레임 전체 또는 미래 프레임 전체를 무작위로 독립적으로 마스킹하는 방식으로 훈련한다. 이 새로운 그러나 간단한 설정은 단일 모델을 통해 다양한 비디오 작업을 수행할 수 있도록 하며, 구체적으로 다음과 같은 작업이 가능하다: 미래/과거 예측(과거/미래 프레임만 마스킹된 경우), 조건부 생성(과거 및 미래 프레임 모두 마스킹된 경우), 보간(과거 및 미래 프레임 모두 마스킹되지 않은 경우). 실험 결과, 본 방법은 다양한 유형의 비디오에 대해 고품질의 프레임을 생성할 수 있음을 확인하였다. 본 연구에서 제안하는 MCVD 모델은 단순한 비순환 2D 컨볼루션 아키텍처로 구성되며, 프레임 블록을 조건으로 하여 프레임 블록을 생성한다. 우리는 블록 단위로 자동 회귀 방식으로 임의의 길이의 비디오를 생성한다. 제안된 방법은 표준 비디오 예측 및 보간 벤치마크에서 SOTA 성능을 달성하며, 모델 훈련에 필요한 계산 시간은 최대 4개의 GPU를 사용하여 1~12일 내외로 측정된다. 프로젝트 페이지: https://mask-cond-video-diffusion.github.io; 코드: https://github.com/voletiv/mcvd-pytorch