DAT++: 변형 가능 주의를 갖는 공간적으로 동적 비전 트랜스포머

Transformers는 다양한 비전 작업에서 뛰어난 성능을 보여주었다. 큰 수용장(Receptive Field)을 갖춘 Transformer 모델은 CNN 대비 더 높은 표현력을 지닌다. 그러나 단순히 수용장을 확대하는 것은 여러 문제를 야기한다. 한편으로, ViT에서 밀도 높은 어텐션을 사용할 경우 메모리 및 계산 비용이 과도하게 증가하며, 관심 영역을 벗어난 관련 없는 부분들에 의해 특징이 영향을 받을 수 있다. 다른 한편으로, PVT나 Swin Transformer에서 사용하는 수작업으로 설계된 어텐션은 데이터에 무관하며, 장거리 관계를 모델링하는 능력을 제한할 수 있다. 이러한 갈등을 해결하기 위해, 우리는 새로운 변형 가능한 다중 헤드 어텐션 모듈을 제안한다. 이 모듈은 자기 어텐션 내에서 키(Key)와 밸류(Value) 쌍의 위치를 데이터에 따라 적응적으로 할당한다. 이러한 유연한 설계는 제안된 변형 가능한 어텐션 모듈이 관련 영역에 동적으로 집중하면서도 전역 어텐션의 표현력을 유지할 수 있도록 한다. 이러한 기반 위에서, 시각 인식에 효과적이고 효율적인 일반적인 비전 백본인 변형 가능한 어텐션 Transformer(DAT)를 제안한다. 더 나아가, 개선된 버전인 DAT++도 개발하였다. 광범위한 실험 결과, DAT++는 다양한 시각 인식 벤치마크에서 최고 성능을 달성하였으며, ImageNet에서 85.9%의 정확도, MS-COCO 인스턴스 세그멘테이션 mAP 54.5 및 47.0, ADE20K 세그멘테이션 mIoU 51.5를 기록하였다.