TDAN: 비디오 초해상도를 위한 시간적으로 변형 가능한 정렬 네트워크

비디오 슈퍼 리졸루션(VSR)은 해당 저해상도(LR) 프레임(참조 프레임)과 여러 인접 프레임(지원 프레임)을 이용하여 사진 같은 고해상도(HR) 비디오 프레임을 복원하는 것을 목표로 합니다. 카메라나 객체의 다양한 움직임으로 인해 참조 프레임과 각 지원 프레임이 정렬되지 않습니다. 따라서 시간적 정렬은 VSR에서 어려우면서도 중요한 문제입니다. 이전 VSR 방법들은 일반적으로 참조 프레임과 각 지원 프레임 사이의 광학 흐름(optical flow)을 활용하여 지원 프레임을 시간적으로 정렬하였습니다. 따라서 이러한 이미지 레벨 기반의 모델 성능은 광학 흐름 예측의 정확성에 크게 의존하며, 부정확한 광학 흐름은 감싸진 지원 프레임에 잔상(artifacts)을 초래하고, 이는 재구성된 HR 비디오 프레임으로 전파됩니다. 이러한 제한을 극복하기 위해 본 논문에서는 광학 흐름 계산 없이 특징 레벨에서 참조 프레임과 각 지원 프레임을 적응적으로 정렬하는 시간적 변형 정렬 네트워크(TDAN)를 제안합니다. TDAN은 참조 프레임과 각 지원 프레임의 특징을 사용하여 샘플링 컨벌루션 커널의 오프셋을 동적으로 예측합니다. 해당 커널들을 사용하여 TDAN은 지원 프雷帧를 참조 프雷帧와 일치시킵니다. HR 비디오 프雷帧를 예측하기 위해, 정렬된 프雷帧들과 참조 프雷帧를 입력으로 사용하는 재구성 네트워크가 활용됩니다. 실험 결과는 제안된 TDAN 기반 VSR 모델의 효과성을 입증합니다.注:在最后一段中,“프雷帧”应该是“프레임”。这是由于输入时的转换错误导致的。正确的翻译如下:TDAN은 지원 프레임을 참조 프레임과 일치시키며, HR 비디오 프레임을 예측하기 위해, 정렬된 프레임들과 참조 프레인를 입력으로 사용하는 재구성 네트워크가 활용됩니다. 실험 결과는 제안된 TDAN 기반 VSR 모델의 효과성을 입증합니다.