이미지 슈퍼리졸루션을 위한 이중 집계 트랜스포머

최근 Transformer는 이미지 초해상도(이하 SR)를 포함한 저수준 시각 작업에서 큰 인기를 끌고 있다. 이러한 네트워크는 공간적 차원과 채널 차원을 따라 자기주의(self-attention)를 활용하여 뛰어난 성능을 달성하고 있다. 이에 영감을 받아, 본 연구에서는 공간적 차원과 채널 차원을 결합함으로써 더욱 강력한 표현 능력을 갖춘 Transformer 모델을 제안한다. 이러한 아이디어를 바탕으로, 이미지 SR을 위한 새로운 Transformer 모델인 이중 집계 Transformer(Dual Aggregation Transformer, DAT)를 제안한다. 본 DAT는 블록 간과 블록 내에서 공간적 및 채널적 차원을 동시에 특징을 집계하는 이중적인 방식을 채택한다. 구체적으로, 연속된 Transformer 블록에서 공간적 및 채널적 자기주의를 교대로 적용한다. 이 교대 전략을 통해 DAT는 전역적 맥락을 효과적으로 포착하고 블록 간 특징 집계를 실현할 수 있다. 더불어, 블록 내 특징 집계를 달성하기 위해 적응형 상호작용 모듈(Adaptive Interaction Module, AIM)과 공간 게이트 피드포워드 네트워크(Spatial-Gate Feed-Forward Network, SGFN)를 제안한다. AIM은 각 차원에서의 자기주의 메커니즘을 보완하여 더 풍부한 정보를 제공하며, SGFN은 피드포워드 네트워크 내에 추가적인 비선형 공간 정보를 도입한다. 광범위한 실험 결과를 통해 본 DAT가 기존 방법들을 능가함을 확인할 수 있었다. 코드와 모델은 다음 주소에서 제공된다: https://github.com/zhengchen1999/DAT.