시각 변환기에서 국지적-전역 상호작용을 위한 집중형 자기주의 attention

최근 들어 비전 트랜스포머(Vision Transformer) 및 그 변종들은 다양한 컴퓨터 비전 작업에서 큰 잠재력을 보여주고 있다. 자기 주의(Self-attention)를 통해 단기적 및 장기적 시각적 종속성을 효과적으로 포착할 수 있다는 능력은 이 성공의 주요 원인으로 여겨진다. 그러나 특히 고해상도 비전 작업(예: 객체 탐지)에서 이는 이차적 계산 부담이라는 도전 과제를 동반한다. 본 논문에서는 세부적인 국소적 상호작용과 거시적인 전역적 상호작용을 동시에 포함하는 새로운 메커니즘인 '포칼 자기 주의(Focal Self-Attention)'를 제안한다. 이 새로운 메커니즘을 통해 각 토큰은 세부적인 해상도에서는 가장 가까운 주변 토큰에 주의를 기울이고, 거시적인 해상도에서는 멀리 떨어진 토큰에도 주의를 기울이게 되어, 단기적 및 장기적 시각적 종속성을 효율적이고 효과적으로 포착할 수 있다. 포칼 자기 주의를 기반으로, 우리는 새로운 비전 트랜스포머 모델의 변종인 '포칼 트랜스포머(Focal Transformer)'를 제안하며, 다양한 공개 이미지 분류 및 객체 탐지 벤치마크에서 기존 최고 성능을 기록한 비전 트랜스포머 모델들을 능가하는 우수한 성능을 달성하였다. 특히, 중간 크기(51.1M 파라미터)와 큰 크기(89.8M 파라미터)의 포칼 트랜스포머 모델은 이미지 분류 작업에서 224×224 해상도에서 각각 83.5%, 83.8%의 Top-1 정확도를 기록하였다. 포칼 트랜스포머를 백본으로 사용하여, 표준 1x 및 3x 학습 스케줄로 훈련된 6가지 다른 객체 탐지 방법에 대해 현재 최고 성능을 기록한 스위인 트랜스포머(Swin Transformer)보다 일관되고 현저한 성능 향상을 달성하였다. 특히 가장 큰 포칼 트랜스포머는 COCO mini-val/test-dev에서 박스 mAP 58.7/58.9, 마스크 mAP 50.9/51.3을 기록하였으며, 의미 분할 작업에서는 ADE20K에서 55.4 mIoU를 달성하여 세 가지 가장 도전적인 컴퓨터 비전 작업에서 새로운 최고 성능(SoTA)을 수립하였다.