이미지 슈퍼해상도를 위한 재귀적 일반화 트랜스포머

Transformers 아키텍처는 이미지 초해상도(이하 SR) 분야에서 뛰어난 성능을 보여왔다. 기존 Transformer의 자기주의(self-attention, SA)는 이차 복잡도를 가지므로, 대부분의 기존 방법들은 계산 부담을 줄이기 위해 SA를 국소 영역에서만 적용하는 방식을 채택하고 있다. 그러나 이러한 국소적 설계는 전역적인 맥락 정보를 효과적으로 활용하는 데 제약을 주며, 정확한 이미지 복원을 위해서는 전역 맥락 정보의 탐색이 매우 중요하다. 본 연구에서는 고해상도 이미지에 적합하며 전역 공간 정보를 효과적으로 포착할 수 있는 Recursive Generalization Transformer(RGT)를 제안한다. 구체적으로, 반복적 일반화 자기주의(RG-SA)를 제안한다. 이는 입력 특징을 반복적으로 대표적인 특징 맵으로 집계한 후, 크로스 어텐션을 활용하여 전역 정보를 추출한다. 동시에 어텐션 행렬(쿼리, 키, 밸류)의 채널 차원을 추가로 확장함으로써 채널 영역 내 중복성을 완화한다. 또한, RG-SA를 국소 자기주의와 결합하여 전역 맥락 정보를 더욱 효과적으로 활용하고, 모듈 통합을 위한 하이브리드 적응형 통합(HAI)을 제안한다. HAI는 다양한 수준의 특징(국소 또는 전역) 간 직접적이고 효과적인 융합을 가능하게 한다. 광범위한 실험 결과는 제안하는 RGT가 최근 최첨단 기법들에 비해 정량적·정성적으로 뛰어난 성능을 보임을 입증한다. 코드 및 사전 학습 모델은 https://github.com/zhengchen1999/RGT 에서 공개되어 있다.