4달 전

Super SloMo: 비디오 보간을 위한 다중 중간 프레임의 고품질 추정

Huaizu Jiang; Deqing Sun; Varun Jampani; Ming-Hsuan Yang; Erik Learned-Miller; Jan Kautz
Super SloMo: 비디오 보간을 위한 다중 중간 프레임의 고품질 추정
초록

두 연속 프레임이 주어졌을 때, 비디오 보간의 목표는 중간 프레임들을 생성하여 공간적 및 시간적으로 일관된 비디오 시퀀스를 형성하는 것입니다. 기존의 대부분 방법들이 단일 프레임 보간에 초점을 맞추고 있는 반면, 우리는 동작 해석과 가림 현상 추론을 공동으로 모델링하는 가변 길이 다중 프레임 비디오 보간을 위한 엔드투엔드 합성곱 신경망을 제안합니다. 먼저 U-Net 구조를 사용하여 입력 이미지 간의 양방향 광학 흐름을 계산합니다. 이러한 흐름은 각 시간 단계에서 선형 결합되어 중간 양방향 광학 흐름을 근사화합니다. 그러나 이러한 근사화된 흐름은 국소적으로 매끄러운 영역에서는 잘 작동하지만, 동작 경계 주변에서는 아티팩트를 발생시킵니다. 이 문제를 해결하기 위해, 우리는 또 다른 U-Net을 사용하여 근사화된 흐름을 정제하고 부드러운 가시성 맵을 예측합니다. 마지막으로, 두 입력 이미지는 왜곡(warping)되어 선형 융합(linear fusion)되어 각 중간 프레임을 형성합니다. 왜곡된 이미지에 가시성 맵을 적용한 후 융합하면, 가려진 픽셀들의 기여를 배제하여 아티팩트를 피할 수 있습니다. 우리의 학습된 네트워크 파라미터는 시간에 종속적이지 않으므로, 필요한 만큼 많은 중간 프레임들을 생성할 수 있습니다. 우리는 240-fps의 1,132개 비디오 클립(총 300K 개의 개별 비디오 프레임 포함)을 사용하여 네트워크를 학습시켰습니다. 여러 데이터셋에서 서로 다른 수의 보간 프레임을 예측한 실험 결과들은 우리의 접근법이 기존 방법들보다 일관되게 우수함을 입증하였습니다.

Super SloMo: 비디오 보간을 위한 다중 중간 프레임의 고품질 추정 | 연구 논문 | HyperAI초신경