
우리는 비전 분야에서 토큰 간 상호작용을 모델링하기 위해 자기주의(Self-attention, SA)를 완전히 포칼 조절 메커니즘(focal modulation mechanism)으로 대체한 포칼 조절 네트워크(FocalNets)를 제안한다. 포칼 조절은 세 가지 구성 요소로 이루어져 있다: (i) 계층적 맥락화(hierarchical contextualization), 깊이-wise 컨볼루션 계층의 스택을 사용하여 짧은 거리에서부터 긴 거리까지 시각적 맥락을 인코딩한다. (ii) 게이트형 집계(gated aggregation), 각 쿼리 토큰의 내용에 따라 관련 맥락을 선택적으로 수집한다. (iii) 요소별 조절(element-wise modulation) 또는 아핀 변환(affine transformation), 집계된 맥락을 쿼리에 주입하는 데 사용된다. 광범위한 실험 결과, FocalNets는 이미지 분류, 객체 탐지, 세그멘테이션 등의 작업에서 계산 비용이 유사한 수준임에도 불구하고 최신의 자기주의 기반 모델(Swin 및 Focal Transformers 등)을 능가함을 보였다. 특히, 소형 및 베이스 크기의 FocalNets는 ImageNet-1K에서 각각 82.3%, 83.9%의 top-1 정확도를 달성했다. 224 해상도에서 ImageNet-22K로 사전 학습한 후, 각각 224와 384 해상도로 미세조정(finetuned)했을 때, top-1 정확도는 86.5%와 87.3%를 기록했다. 하류 작업으로 전이할 경우에도 FocalNets는 명확한 우수성을 보였다. Mask R-CNN을 사용한 객체 탐지에서는, 1× 학습 스케줄로 훈련된 FocalNet 베이스가 Swin 모델보다 2.1점 높은 성능을 기록했으며, 이는 Swin이 3× 스케줄로 훈련한 경우(49.0 vs. 48.5)를 이미 초과하는 수준이다. UPerNet을 사용한 세분화 작업에서는, 단일 스케일(single-scale)에서 FocalNet 베이스가 Swin보다 2.4점 우수했으며, 다중 스케일(multi-scale)에서도 50.5 vs. 49.7로 우위를 보였다. 대규모 FocalNet과 Mask2Former을 결합하여 ADE20K 세분화에서는 58.5 mIoU를 달성했고, COCO 패노픽 세분화에서는 57.9 PQ를 기록했다. 또한, 거대 규모의 FocalNet과 DINO를 활용해 COCO minival과 test-dev에서 각각 64.3 및 64.4 mAP를 달성하며, Swinv2-G 및 BEIT-3과 같은 훨씬 더 큰 자기주의 기반 모델을 기반으로 한 최신 기준(SoTA)을 새로 설정했다. 코드와 체크포인트는 https://github.com/microsoft/FocalNet 에 공개되어 있다.