VRT: 비디오 복원 트랜스포머

비디오 복원(예: 비디오 초고해상도)은 저품질 프레임에서 고품질 프레임을 복원하는 것을 목표로 합니다. 단일 이미지 복원과 달리, 비디오 복원은 일반적으로 여러 개의 인접하지만 보통 일치하지 않은 비디오 프레임에서 시간적 정보를 활용해야 합니다. 기존의 딥러닝 방법들은 이 문제를 슬라이딩 윈도우 전략이나 순환 구조를 이용하여 해결하려고 하지만, 이들 중 어느 하나도 프레임별 복원에 제한되거나 장거리 모델링 능력이 부족합니다. 본 논문에서는 병렬 프레임 예측 및 장거리 시간적 의존성 모델링 능력을 갖춘 비디오 복원 트랜스포머(VRT)를 제안합니다. 더욱 구체적으로, VRT는 여러 스케일로 구성되어 있으며, 각 스케일은 두 가지 유형의 모듈인 시간 상호 자기 주의(TMSA)와 병렬 와핑으로 이루어져 있습니다. TMSA는 비디오를 작은 클립으로 나누어, 서로 다른 클립 간의 공동 운동 추정, 특징 정렬 및 특징 융합을 위해 상호 주의를 적용하며, 자기 주의는 특징 추출을 위해 사용됩니다. 클립 간 상호 작용을 가능하게 하기 위해, 비디오 시퀀스는 각 층마다 번갈아가며 이동됩니다. 또한, 병렬 와핑은 인접 프레임에서 정보를 더 효과적으로 융합하기 위해 병렬 특징 와핑을 사용합니다. 다섯 가지 작업(비디오 초고해상도, 비디오 블러 제거, 비디오 노이즈 제거, 비디오 프레임 보간 및 시공간 초고해상도 비디오)에 대한 실험 결과는 VRT가 14개 벤치마크 데이터셋에서 최신 방법들을 크게 앞서는 성능(최대 2.16dB)을 보여주었습니다.