
초록
비디오 프레임 보간을 위한 대부분의 딥러닝 기법은 특징 추출, 운동 추정, 이미지 합성의 세 가지 주요 구성 요소로 구성된다. 기존의 접근 방식은 이 세 모듈의 설계 방식에 따라 주로 구분된다. 그러나 4K와 같은 고해상도 이미지 보간을 수행할 경우, 합리적인 메모리 요구량 내에서 높은 정확도를 달성하기 위한 설계 선택지가 제한적이다. 특징 추출 층은 입력 데이터를 압축하고 이후 단계(예: 운동 추정)에 필요한 정보를 추출하는 데 기여하지만, 이러한 층은 파라미터 수, 계산 시간, 메모리 사용 측면에서 비용이 크다. 본 연구에서는 차원 축소 기법의 아이디어와 경량 최적화 기법을 결합하여 입력 표현을 압축하면서도 프레임 보간에 적합한 정보를 유지할 수 있음을 보여준다. 또한, 사전 학습된 흐름 네트워크나 합성 네트워크를 요구하지 않으며, 이로 인해 학습 가능한 파라미터 수와 메모리 요구량을 추가로 감소시킬 수 있다. 4K 기준으로 세 가지 벤치마크에서 평가한 결과, 사전 학습된 흐름 모델을 사용하지 않은 방법 중에서 최고 수준의 이미지 품질을 달성하였으며, 전반적으로 가장 낮은 네트워크 복잡성과 메모리 요구량을 갖추고 있다.