HMANet: 이미지 슈퍼리졸루션을 위한 하이브리드 다중 축 집계 네트워크

기존의 컨볼루션 신경망을 뛰어넘는 우수한 성능을 보여주며, 초해상도 시각 처리 작업에서 Transformer 기반 방법이 뛰어난 성과를 거두고 있다. 그러나 기존 연구들은 계산 비용 절감을 위해 자기 주의(self-attention) 계산을 겹치지 않는 창(Window)에 국한하는 경우가 많다. 이로 인해 Transformer 기반 네트워크는 입력 정보를 제한된 공간 범위 내에서만 활용할 수 있게 된다. 이를 해결하기 위해 본 논문에서는 특징의 잠재적 정보를 보다 효과적으로 활용할 수 있는 새로운 하이브리드 다축 집계 네트워크(Hybrid Multi-Axis Aggregation network, HMA)를 제안한다. HMA는 잔차 하이브리드 트랜스포머 블록(Residual Hybrid Transformer Block, RHTB)과 그리드 주의 블록(Grid Attention Block, GAB)을 반복적으로 쌓아 구성된다. RHTB는 채널 주의와 자기 주의를 결합하여 비국소적 특징 융합을 강화하고, 더 매력적인 시각적 결과를 도출한다. 반면 GAB는 다중 도메인 간 정보 상호작용을 위해 사용되며, 유사한 특징을 함께 모델링함으로써 더 큰 인지 범위(perceptual field)를 확보한다. 학습 단계에서 초해상도 작업을 수행하기 위해, 모델의 표현 능력을 더욱 향상시키기 위한 새로운 사전 학습 방법을 설계하였으며, 다양한 실험을 통해 제안된 모델의 유효성을 검증하였다. 실험 결과, HMA는 기준 데이터셋에서 최첨단 기법들을 모두 능가하는 성능을 보였다. 코드 및 모델은 https://github.com/korouuuuu/HMA 에 공개되어 있다.