17일 전

이미지 슈퍼리졸루션을 위한 이중 집계 트랜스포머

Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang, Fisher Yu
이미지 슈퍼리졸루션을 위한 이중 집계 트랜스포머
초록

최근 Transformer는 이미지 초해상도(이하 SR)를 포함한 저수준 시각 작업에서 큰 인기를 끌고 있다. 이러한 네트워크는 공간적 차원과 채널 차원을 따라 자기주의(self-attention)를 활용하여 뛰어난 성능을 달성하고 있다. 이에 영감을 받아, 본 연구에서는 공간적 차원과 채널 차원을 결합함으로써 더욱 강력한 표현 능력을 갖춘 Transformer 모델을 제안한다. 이러한 아이디어를 바탕으로, 이미지 SR을 위한 새로운 Transformer 모델인 이중 집계 Transformer(Dual Aggregation Transformer, DAT)를 제안한다. 본 DAT는 블록 간과 블록 내에서 공간적 및 채널적 차원을 동시에 특징을 집계하는 이중적인 방식을 채택한다. 구체적으로, 연속된 Transformer 블록에서 공간적 및 채널적 자기주의를 교대로 적용한다. 이 교대 전략을 통해 DAT는 전역적 맥락을 효과적으로 포착하고 블록 간 특징 집계를 실현할 수 있다. 더불어, 블록 내 특징 집계를 달성하기 위해 적응형 상호작용 모듈(Adaptive Interaction Module, AIM)과 공간 게이트 피드포워드 네트워크(Spatial-Gate Feed-Forward Network, SGFN)를 제안한다. AIM은 각 차원에서의 자기주의 메커니즘을 보완하여 더 풍부한 정보를 제공하며, SGFN은 피드포워드 네트워크 내에 추가적인 비선형 공간 정보를 도입한다. 광범위한 실험 결과를 통해 본 DAT가 기존 방법들을 능가함을 확인할 수 있었다. 코드와 모델은 다음 주소에서 제공된다: https://github.com/zhengchen1999/DAT.