압축 영상 슈퍼리졸루션을 위한 공간시적 주파수-Transformer 학습

압축 비디오 초해상도 복원(VSR)은 압축된 저해상도 프레임으로부터 고해상도 프레임을 복원하는 것을 목표로 한다. 최근 대부분의 VSR 기법들은 인접한 비디오 프레임들로부터 관련 텍스처를 빌려와 입력 프레임을 향상시키는 방식을 채택한다. 비록 일부 진전이 있었지만, 대부분의 프레임이 크게 손상된 압축 비디오에서 고품질 텍스처를 효과적으로 추출하고 전달하는 것은 여전히 큰 도전 과제로 남아 있다. 본 논문에서는 공동 시공간-주파수 영역에서 자기 주의(self-attention)를 수행하는 새로운 주파수 트랜스포머(Frequency-Transformer, FTVSR)를 제안한다. 먼저, 비디오 프레임을 패치로 분할하고, 각 패치를 DCT 스펙트럼 맵으로 변환한다. 여기서 각 채널은 하나의 주파수 대역을 나타낸다. 이러한 설계는 각 주파수 대역에 대해 세밀한 수준의 자기 주의를 가능하게 하여, 실제 시각적 텍스처와 아티팩트를 구분하고, 이를 비디오 프레임 복원에 활용할 수 있게 한다. 둘째, 다양한 자기 주의 구조를 탐구한 결과, 각 주파수 대역에 대해 시공간-주파수 주의를 먼저 적용한 후 시간적 주의를 수행하는 분할 주의(divided attention) 방식이 최고의 비디오 향상 품질을 제공함을 발견하였다. 두 개의 대표적인 비디오 초해상도 복원 벤치마크에서의 실험 결과는 FTVSR이 압축되지 않은 비디오와 압축된 비디오 모두에서 최첨단 기법들을 명확한 시각적 차이로 능가함을 보여준다. 코드는 https://github.com/researchmm/FTVSR 에서 공개되어 있다.