17일 전

이미지 슈퍼해상도를 위한 재귀적 일반화 트랜스포머

Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang
이미지 슈퍼해상도를 위한 재귀적 일반화 트랜스포머
초록

Transformers 아키텍처는 이미지 초해상도(이하 SR) 분야에서 뛰어난 성능을 보여왔다. 기존 Transformer의 자기주의(self-attention, SA)는 이차 복잡도를 가지므로, 대부분의 기존 방법들은 계산 부담을 줄이기 위해 SA를 국소 영역에서만 적용하는 방식을 채택하고 있다. 그러나 이러한 국소적 설계는 전역적인 맥락 정보를 효과적으로 활용하는 데 제약을 주며, 정확한 이미지 복원을 위해서는 전역 맥락 정보의 탐색이 매우 중요하다. 본 연구에서는 고해상도 이미지에 적합하며 전역 공간 정보를 효과적으로 포착할 수 있는 Recursive Generalization Transformer(RGT)를 제안한다. 구체적으로, 반복적 일반화 자기주의(RG-SA)를 제안한다. 이는 입력 특징을 반복적으로 대표적인 특징 맵으로 집계한 후, 크로스 어텐션을 활용하여 전역 정보를 추출한다. 동시에 어텐션 행렬(쿼리, 키, 밸류)의 채널 차원을 추가로 확장함으로써 채널 영역 내 중복성을 완화한다. 또한, RG-SA를 국소 자기주의와 결합하여 전역 맥락 정보를 더욱 효과적으로 활용하고, 모듈 통합을 위한 하이브리드 적응형 통합(HAI)을 제안한다. HAI는 다양한 수준의 특징(국소 또는 전역) 간 직접적이고 효과적인 융합을 가능하게 한다. 광범위한 실험 결과는 제안하는 RGT가 최근 최첨단 기법들에 비해 정량적·정성적으로 뛰어난 성능을 보임을 입증한다. 코드 및 사전 학습 모델은 https://github.com/zhengchen1999/RGT 에서 공개되어 있다.