18일 전

저품질 비디오 슈퍼해상도를 위한 공간시적 주파수-Transformer 학습

Zhongwei Qiu, Huan Yang, Jianlong Fu, Daochang Liu, Chang Xu, Dongmei Fu
저품질 비디오 슈퍼해상도를 위한 공간시적 주파수-Transformer 학습
초록

비디오 슈퍼리졸루션(VSR)은 저해상도(LR) 비디오에서 고해상도(HR) 비디오를 복원하는 것을 목표로 한다. 기존의 VSR 기법들은 일반적으로 알려진 왜곡 과정을 가진 근접 프레임들로부터 관련 텍스처를 추출하여 HR 프레임을 복원한다. 비록 상당한 진전이 있었지만, 흐림, 가산 노이즈, 압축 아티팩트 등과 같은 고도로 왜곡된 저품질 시퀀스로부터 고품질 텍스처를 효과적으로 추출하고 전달하는 데 있어 여전히 큰 도전 과제가 남아 있다. 본 연구에서는 시공간-주파수 도메인에서 자기 주의(multi-head self-attention)를 수행하는 새로운 주파수 트랜스포머(FTVSR)를 제안한다. 먼저, 비디오 프레임을 패치로 분할하고 각 패치를 주파수 대역을 나타내는 스펙트럼 맵으로 변환한다. 이를 통해 각 주파수 대역에 대해 세밀한 자기 주의를 적용할 수 있어 실제 시각적 텍스처와 아티팩트를 구분할 수 있다. 둘째, 전역 주파수 관계와 국소 주파수 관계를 동시에 포착할 수 있는 새로운 이중 주파수 주의(DFA) 메커니즘을 제안하여, 실제 세계에서 발생하는 다양한 복잡한 왜곡 과정을 효과적으로 처리할 수 있다. 셋째, 주파수 도메인에서 비디오 처리를 위한 다양한 자기 주의 방식을 탐구한 결과, 시공간-주파수 주의를 먼저 수행한 후 시간-주파수 주의를 적용하는 '분할 주의(divided attention)' 방식이 비디오 향상 품질에서 최고의 성능을 보임을 발견하였다. 세 가지 널리 사용되는 VSR 데이터셋에서 실시한 광범위한 실험 결과, FTVSR은 다양한 저품질 비디오에 대해 최첨단 기법들을 명확한 시각적 차이로 능가함을 입증하였다. 코드 및 사전 훈련된 모델은 https://github.com/researchmm/FTVSR 에서 제공된다.

저품질 비디오 슈퍼해상도를 위한 공간시적 주파수-Transformer 학습 | 최신 연구 논문 | HyperAI초신경