Axial-DeepLab: 패노픽 세그멘테이션을 위한 독립형 축 방향 주의 메커니즘

컨볼루션은 국소성(locality)을 활용하여 효율성을 높이지만, 장거리 맥락(long-range context)을 놓치는 단점이 있다. 자기주의(self-attention)는 CNN에 비국소적 상호작용(non-local interactions)을 도입하기 위해 도입되었으며, 최근 연구들은 주의를 국소 영역에 제한함으로써 자기주의 층을 반복적으로 쌓아 완전한 주의 기반 네트워크(full attentional network)를 구현할 수 있음을 입증했다. 본 논문에서는 이러한 제약을 제거하기 위해 2차원 자기주의를 두 개의 1차원 자기주의로 분해하는 방식을 제안한다. 이는 계산 복잡도를 감소시키며, 더 넓은 영역 또는 전역(global) 영역 내에서 주의를 수행할 수 있도록 한다. 동시에, 위치에 민감한 자기주의(position-sensitive self-attention) 구조를 제안한다. 두 가지 기법을 결합함으로써, 이미지 분류 및 밀집 예측(dense prediction)을 위한 축 방향 주의 모델(axial-attention models)을 구성할 수 있는 새로운 기본 요소인 위치에 민감한 축 주의 레이어(position-sensitive axial-attention layer)를 도입한다. 제안한 모델의 효과성을 네 가지 대규모 데이터셋에서 검증하였다. 특히, ImageNet에서 기존의 모든 독립형 자기주의 모델보다 우수한 성능을 달성하였다. Axial-DeepLab은 COCO test-dev에서 하향식(bottom-up) 최신 기술 대비 2.8% 높은 PQ를 기록하였다. 이전 최고 성능은 본 연구의 소형 변형 모델이 달성한 것으로, 파라미터 효율성은 3.8배, 계산 효율성은 27배 향상되었다. 또한 Axial-DeepLab은 Mapillary Vistas 및 Cityscapes에서도 최고 수준의 성능을 달성하였다.