해석 가능한 비디오 초고해상도를 위한 교대 최적화 방법론

본 논문에서는 저 프레임율과 저 해상도의 블러리한 동영상에서 고 프레임율과 고 해상도의 선명한 동영상을 생성하는 실용적인 시공간 영상 초해상도(STVSR, Space-Time Video Super-Resolution) 문제를 연구합니다. 이러한 문제는 일반적으로 저 프레임율과 저 해상도 카메라로 빠른 동적 이벤트를 촬영할 때 발생하며, 캡처된 동영상은 세 가지 전형적인 이슈에 직면하게 됩니다: i) 노출 시간 동안 객체 또는 카메라의 움직임으로 인해 모션 블러가 발생합니다; ii) 이벤트의 시간 주파수가 시간 샘플링의 나이퀴스트 한계(Nyquist limit)를 초과하면 모션 에일리어싱(motion aliasing)을 피하기 어렵습니다; iii) 공간 샘플링률이 낮기 때문에 고주파 세부 정보가 손실됩니다. 이러한 이슈들은 비디오 디블러링(video deblurring), 프레임 보간(frame interpolation), 초해상도(super-resolution)라는 세 개의 별개의 하위 작업을 연속적으로 수행함으로써 완화될 수 있지만, 비디오 시퀀스 간의 공간적 및 시간적 상관관계를 포착하지 못할 가능성이 있습니다. 이를 해결하기 위해, 본 연구에서는 모델 기반 방법과 학습 기반 방법을 모두 활용하여 해석 가능한 STVSR 프레임워크를 제안합니다. 구체적으로, STVSR을 비디오 디블러링, 프레임 보간, 초해상도 문제로 결합하고, 두 개의 하위 문제로 나누어 번갈아 가며 해결합니다. 첫 번째 하위 문제에 대해서는 해석 가능한 분석적 해법을 도출하여 푸리에 데이터 변환 계층(Fourier data transform layer)으로 사용합니다. 그 다음, 두 번째 하위 문제를 위해 고주파 세부 정보를 더욱 회복하기 위한 순환 비디오 향상 계층(recurrent video enhancement layer)을 제안합니다. 광범위한 실험 결과는 본 방법론이 정량적 지표와 시각적 품질 면에서 우수함을 입증하였습니다.