17일 전

이미지 슈퍼리졸루션 트랜스포머에서 더 많은 픽셀 활성화하기

Xiangyu Chen, Xintao Wang, Jiantao Zhou, Yu Qiao, Chao Dong
이미지 슈퍼리졸루션 트랜스포머에서 더 많은 픽셀 활성화하기
초록

기존의 Transformer 기반 방법들은 이미지 초해상도와 같은 저수준 시각 작업에서 놀라운 성능을 보여주고 있다. 그러나 우리는 속성 분석을 통해 이러한 네트워크가 입력 정보의 제한된 공간 범위만을 활용할 수 있음을 발견했다. 이는 기존 네트워크에서 Transformer의 잠재력이 아직 충분히 발휘되지 않았음을 시사한다. 더 나은 재구성 성능을 위해, 우리는 채널 주의력(channel attention)과 윈도우 기반 자기 주의력(window-based self-attention)을 결합한 새로운 하이브리드 주의력 Transformer(HAT)를 제안한다. 이를 통해 전역 통계를 활용할 수 있는 능력과 강력한 국소적 적합 능력이라는 두 가지 보완적인 장점을 동시에 활용할 수 있다. 또한, 인접 윈도우 간의 정보를 더 효과적으로 통합하기 위해 겹치는 교차 주의력(overlapping cross-attention) 모듈을 도입하여 이웃 윈도우 특징 간의 상호작용을 강화한다. 학습 단계에서는 모델의 잠재력을 더욱 극대화하기 위해 동일한 작업 전학습(same-task pre-training) 전략을 추가로 채택한다. 광범위한 실험을 통해 제안하는 모듈들의 효과성을 입증하였으며, 모델을 확장함으로써 이 작업의 성능이 크게 향상됨을 확인하였다. 제안하는 전체 방법은 기존 최고 성능 기법들보다 1dB 이상 우수한 성능을 달성하였다. 코드 및 모델은 https://github.com/XPixelGroup/HAT 에서 제공된다.

이미지 슈퍼리졸루션 트랜스포머에서 더 많은 픽셀 활성화하기 | 최신 연구 논문 | HyperAI초신경