
Transformers는 다양한 모달리티, 도메인 및 작업에서 빠르게 가장 널리 적용되는 딥러닝 아키텍처 중 하나로 부상하고 있다. 비전 분야에서는 단순한 Transformer에 대한 지속적인 연구 외에도, 성능 우수성과 기존 프레임워크에의 용이한 통합성으로 인해 계층적 Transformer(Hierarchical Transformers)도 큰 주목을 받고 있다. 이러한 모델들은 일반적으로 슬라이딩 윈도우 기반의 국소적 어텐션 메커니즘을 사용하는데, 예를 들어 Neighborhood Attention(NA) 또는 Swin Transformer의 Shifted Window Self Attention이 대표적이다. 이러한 국소 어텐션은 자기 어텐션(Self-attention)의 이차 복잡도를 효과적으로 줄이는 반면, 자기 어텐션의 가장 바람직한 두 가지 특성—장거리 상호의존성 모델링 및 전역 수용영역(Global Receptive Field)—을 약화시키는 문제가 있다. 본 논문에서는 이러한 한계를 극복하기 위해, NA의 자연스럽고 유연하며 효율적인 확장 기법인 Dilated Neighborhood Attention(DiNA)을 제안한다. DiNA는 추가적인 비용 없이 보다 전역적인 컨텍스트를 포착하고 수용영역을 지수적으로 확장할 수 있다. NA의 국소적 어텐션과 DiNA의 희소적 전역 어텐션은 서로 보완되며, 이를 기반으로 두 가지를 모두 활용한 새로운 계층적 비전 Transformer인 Dilated Neighborhood Attention Transformer(DiNAT)을 제안한다. DiNAT의 다양한 변형은 NAT, Swin, ConvNeXt와 같은 강력한 기준 모델들에 비해 상당한 성능 향상을 보인다. 대규모 모델은 COCO 객체 탐지에서 Swin 모델 대비 1.6% 높은 박스 AP, COCO 인스턴스 세그멘테이션에서 1.4% 높은 마스크 AP, ADE20K 세그멘테이션에서 1.4% 높은 mIoU를 기록하며, 더 빠른 속도를 자랑한다. 새로운 프레임워크와 결합된 대규모 변형은 COCO(58.5 PQ)와 ADE20K(49.4 PQ)에서 새로운 패노픽 세그멘테이션 모델의 최신 기준을 달성했으며, Cityscapes(45.1 AP)와 ADE20K(35.4 AP)에서 인스턴스 세그멘테이션 모델의 최신 기준을 달성했다(추가 데이터 없음). 또한 ADE20K에서 전문적인 세그멘테이션 모델과 동등한 성능(58.1 mIoU)을 달성하며, Cityscapes에서는 84.5 mIoU로 두 번째 순위를 기록했다(추가 데이터 없음).