9일 전
SDC-Net: 공간 이동형 컨볼루션을 이용한 비디오 예측
{Kevin J. Shih, Jon Barker, Andrew Tao, Robert Kirby, Guilin Liu, Fitsum A. Reda, David Tarjan, Bryan Catanzaro}

초록
과거 프레임과 과거 광학 흐름을 조건으로 하여 고해상도 비디오 프레임 예측을 위한 접근법을 제안한다. 기존의 방법들은 학습된 미래 광학 흐름에 따라 과거 프레임을 재샘플링하거나 직접 픽셀을 생성하는 방식에 의존한다. 광학 흐름을 기반으로 한 재샘플링은 비표출 영역(occlusions)을 처리할 수 없기 때문에 충분하지 않으며, 생성 모델은 현재로서는 흐릿한 결과를 낳는다. 최근의 접근법은 예측된 커널로 입력 패치를 컨볼루션하여 픽셀을 합성하는 방식을 채택하고 있으나, 커널 크기가 커질수록 메모리 요구량이 급격히 증가한다. 본 연구에서는 비디오 프레임 예측을 위한 공간적으로 이동된 컨볼루션(Spatially-Displaced Convolution, SDC) 모듈을 제안한다. 각 픽셀에 대해 운동 벡터와 커널을 학습하고, 예측된 운동 벡터에 의해 정의된 소스 이미지 내 이동된 위치에 커널을 적용하여 픽셀을 합성한다. 본 방법은 벡터 기반과 커널 기반 접근법의 장점을 모두 유지하면서 각각의 단점을 개선한다. 우리는 428,000개의 레이블 없이 수집된 1080p 비디오 게임 프레임을 기반으로 모델을 학습시켰으며, 고해상도 YouTube-8M 비디오에서 SSIM 점수 0.904, Caltech Pedestrian 비디오에서 0.918의 최신 기술 수준(SOTA) 성능을 달성하였다. 제안한 모델은 큰 운동 변화를 효과적으로 처리하며 일관된 운동을 유지하면서 선명한 프레임을 합성할 수 있다.