
시각적 객체 추적은 일반적으로 특징 추출, 타깃 정보 통합, 경계 상자 추정의 다단계 파이프라인을 활용한다. 본 논문에서는 이러한 파이프라인을 단순화하고 특징 추출과 타깃 정보 통합 과정을 통합하기 위해, 트랜스포머 기반의 간결한 추적 프레임워크인 MixFormer을 제안한다. 우리의 핵심 설계는 어텐션 연산의 유연성을 활용하여, 동시에 특징 추출과 타깃 정보 통합을 수행할 수 있는 혼합 어텐션 모듈(Mixed Attention Module, MAM)을 제안한다. 이 동기화 모델링 방식은 타깃에 특화된 구분 능력을 갖춘 특징을 추출하고, 타깃 영역과 탐색 영역 간의 광범위한 정보 교환을 가능하게 한다. MAM 기반으로, 단순히 다수의 MAM을 쌓아 올리고 위에 위치 추정 헤드를 추가함으로써 MixFormer 추적기를 구축한다. 구체적으로, 계층적 추적기인 MixCvT와 비계층적 추적기인 MixViT 두 가지 유형의 MixFormer 추적기를 구현하였다. 이러한 두 추적기에서 다양한 사전 훈련 방법을 조사하였으며, 감독 학습 기반 사전 훈련과 자기지도 학습 기반 사전 훈련이 MixFormer 추적기 내에서 서로 다른 동작 패턴을 보임을 발견하였다. 또한, 마스킹 기반 사전 훈련을 MixFormer 추적기로 확장하여 경쟁력 있는 TrackMAE 사전 훈련 기법을 설계하였다. 마지막으로, 온라인 추적 시 다수의 타깃 템플릿을 처리하기 위해 MAM 내에서 비대칭 어텐션 구조를 도입하여 계산 비용을 감소시키고, 고품질 템플릿을 효과적으로 선택할 수 있는 점수 예측 모듈을 제안하였다. 제안된 MixFormer 추적기는 LaSOT, TrackingNet, VOT2020, GOT-10k, OTB100, UAV123를 포함한 7개의 추적 벤치마크에서 새로운 최고 성능을 기록하였다. 특히, MixViT-L은 LaSOT에서 AUC 점수 73.3%, TrackingNet에서 86.1%, VOT2020에서 EAO 0.584, GOT-10k에서 AO 75.7%를 달성하였다. 코드 및 학습된 모델은 공개되어 있으며, https://github.com/MCG-NJU/MixFormer 에서 확인할 수 있다.