
추적은 종종 특성 추출, 대상 정보 통합, 그리고 바운딩 박스 추정의 다단계 파이프라인을 사용합니다. 이 파이프라인을 단순화하고 특성 추출과 대상 정보 통합 과정을 일원화하기 위해, 트랜스포머를 기반으로 한MixFormer라는 소형 추적 프레임워크를 제시합니다. 우리의 핵심 설계는 주의 연산의 유연성을 활용하고, 특성 추출과 대상 정보 통합을 동시에 수행하는 혼합 주의 모듈(Mixed Attention Module, MAM)을 제안하는 것입니다. 이 동기화된 모델링 방식은 대상 특정 차별적 특성을 추출하고 대상과 탐색 영역 간에 광범위한 의사소통을 수행할 수 있게 합니다. MAM을 기반으로 하여, 진행적인 패치 임베딩(progressive patch embedding)과 함께 여러 개의 MAM을 쌓고 상위에 위치화 헤드(localization head)를 배치하여 MixFormer 추적 프레임워크를 단순하게 구축하였습니다. 또한 온라인 추적 중 여러 대상 템플릿을 처리하기 위해, 계산 비용을 줄이는 비대칭 주의 방식(asymmetric attention scheme)을 MAM 내에서 고안하였으며, 고품질 템플릿을 선택하기 위한 효과적인 점수 예측 모듈(score prediction module)도 제안하였습니다. 우리의 MixFormer는 LaSOT, TrackingNet, VOT2020, GOT-10k, UAV123 등 다섯 가지 추적 벤치마크에서 새로운 최고 성능(state-of-the-art performance)을 달성하였습니다. 특히 MixFormer-L은 LaSOT에서 NP 점수가 79.9%, TrackingNet에서 88.9%, VOT2020에서 EAO가 0.555를 기록하였습니다. 우리는 또한 동시 특성 추출 및 정보 통합의 효과성을 입증하기 위해 깊이 있는 아블레이션 연구(ablation studies)를 수행하였습니다. 코드와 학습된 모델은 https://github.com/MCG-NJU/MixFormer에서 공개적으로 이용 가능합니다.