
비전 트랜스포머(Vision Transformers, ViTs)는 컴퓨터 비전 작업에서 놀라운 성과를 거두었다. 그러나 회전에 민감한 상황에서의 잠재력은 아직 충분히 탐색되지 않았으며, 이러한 제한은 데이터 전달 과정에서 공간 불변성(spacial invariance)의 부재에 본질적으로 기인할 수 있다. 본 연구에서는 ViT를 활용한 방향성 객체 탐지에 효과적인 간단한 해결책을 제안한다. 이를 위해 공간 변환 분리(Spatial Transform Decoupling, STD)라는 새로운 접근법을 제시한다. STD는 쌓인 ViT 블록 위에 구축되며, 경계 상자(Bounding box)의 위치, 크기, 각도를 별도의 네트워크 브랜치를 통해 예측함으로써, 분할-정복 방식으로 ViT의 공간 변환 잠재력을 효과적으로 활용한다. 더불어, 회귀된 파라미터를 기반으로 계산된 연속된 활성화 마스크(Cascaded Activation Masks, CAMs)를 통합함으로써, 관심 영역(Region of Interest, RoI) 내 특징을 점진적으로 강화하는 구조를 갖추고 있으며, 이는 자기 주의(self-attention) 메커니즘을 보완한다. 복잡한 트릭 없이도 STD는 DOTA-v1.0(82.24% mAP) 및 HRSC2016(98.55% mAP)과 같은 벤치마크 데이터셋에서 최신 기준(SOTA) 성능을 달성하며, 제안된 방법의 유효성을 입증한다. 소스 코드는 https://github.com/yuhongtian17/Spatial-Transform-Decoupling 에서 공개되어 있다.