
초록
표준 비디오 프레임 보간 방법은 먼저 입력 프레임 간의 광학 흐름을 추정한 후, 운동에 의해 안내되는 중간 프레임을 합성합니다. 최근 접근 방식은 이 두 단계를 하나의 합성 과정으로 통합하여, 입력 프레임을 운동과 재샘플링을 동시에 고려하는 공간적 적응 커널로 합성합니다. 이러한 방법들은 큰 운동을 처리하기 위해 큰 커널이 필요하며, 이는 큰 메모리 요구량으로 인해 한 번에 추정할 수 있는 픽셀 수가 제한됩니다. 이 문제를 해결하기 위해 본 논문에서는 입력 프레임 위에서 1D 커널 쌍을 사용하여 로컬 분리 가능한 합성을 통해 프레임 보간을 공식화합니다. 일반 2D 커널과 비교할 때, 1D 커널은 추정해야 하는 매개변수의 수가 현저히 적습니다. 우리의 방법은 두 개의 입력 프레임을 받아 모든 픽셀에 대해 1D 커널 쌍을 동시에 추정하는 깊은 완전 합성 신경망(deep fully convolutional neural network)을 개발합니다. 우리의 방법은 커널 추정과 전체 비디오 프레임 합성을 한 번에 수행할 수 있으므로, 시각적으로 만족스러운 프레임을 생성하도록 신경망을 훈련시키기 위한 감각적 손실(perceptual loss)의 도입이 가능합니다. 이 깊은 신경망은 인간의 주석 없이 널리 이용 가능한 비디오 데이터를 사용하여 엔드투엔드로 훈련됩니다. 정성적 및 정량적 실험 결과, 우리의 방법이 고품질 비디오 프레임 보간에 대한 실용적인 해결책을 제공함을 확인할 수 있습니다.