17일 전
이미지 슈퍼리졸루션 트랜스포머에서 더 많은 픽셀 활성화하기
Xiangyu Chen, Xintao Wang, Jiantao Zhou, Yu Qiao, Chao Dong

초록
기존의 Transformer 기반 방법들은 이미지 초해상도와 같은 저수준 시각 작업에서 놀라운 성능을 보여주고 있다. 그러나 우리는 속성 분석을 통해 이러한 네트워크가 입력 정보의 제한된 공간 범위만을 활용할 수 있음을 발견했다. 이는 기존 네트워크에서 Transformer의 잠재력이 아직 충분히 발휘되지 않았음을 시사한다. 더 나은 재구성 성능을 위해, 우리는 채널 주의력(channel attention)과 윈도우 기반 자기 주의력(window-based self-attention)을 결합한 새로운 하이브리드 주의력 Transformer(HAT)를 제안한다. 이를 통해 전역 통계를 활용할 수 있는 능력과 강력한 국소적 적합 능력이라는 두 가지 보완적인 장점을 동시에 활용할 수 있다. 또한, 인접 윈도우 간의 정보를 더 효과적으로 통합하기 위해 겹치는 교차 주의력(overlapping cross-attention) 모듈을 도입하여 이웃 윈도우 특징 간의 상호작용을 강화한다. 학습 단계에서는 모델의 잠재력을 더욱 극대화하기 위해 동일한 작업 전학습(same-task pre-training) 전략을 추가로 채택한다. 광범위한 실험을 통해 제안하는 모듈들의 효과성을 입증하였으며, 모델을 확장함으로써 이 작업의 성능이 크게 향상됨을 확인하였다. 제안하는 전체 방법은 기존 최고 성능 기법들보다 1dB 이상 우수한 성능을 달성하였다. 코드 및 모델은 https://github.com/XPixelGroup/HAT 에서 제공된다.