3달 전

SwinTrack: Transformer 추적을 위한 간단하고 강력한 베이스라인

Liting Lin, Heng Fan, Zhipeng Zhang, Yong Xu, Haibin Ling
SwinTrack: Transformer 추적을 위한 간단하고 강력한 베이스라인
초록

최근 Transformer는 추적 분야에서 광범위하게 연구되어 최첨단(SOTA) 성능을 보여주고 있다. 그러나 기존의 연구 대부분은 합성곱 신경망(CNN)이 생성한 특징을 융합하고 강화하는 데 집중되어 있으며, Transformer의 표현 학습 잠재력은 여전히 충분히 탐색되지 않았다. 본 논문에서는 전통적인 시아메스(Siamese) 프레임워크 내에서 단순하면서도 효율적인 완전 주의(attention) 기반 추적기인 SwinTrack를 제안함으로써 Transformer의 잠재력을 더욱 극대화하고자 한다. 특히 SwinTrack에서는 표현 학습과 특징 융합 모두 Transformer 아키텍처를 활용하여 순수한 CNN 또는 하이브리드 CNN-Transformer 구조보다 더 우수한 특징 상호작용을 가능하게 한다. 또한, 더 나은 견고성 향상을 위해 역사적 타겟 경로를 포함하는 새로운 움직임 토큰(motion token)을 제안한다. 이 움직임 토큰은 계산 부담이 거의 없으며 경량 구조이지만, 명확한 성능 향상을 가져온다. 철저한 실험을 통해 SwinTrack는 다양한 벤치마크에서 기존 방법들을 능가함을 확인하였다. 특히 도전적인 LaSOT 벤치마크에서 0.713의 SUC 점수로 새로운 기록을 수립하였으며, 다른 벤치마크에서도 SOTA 성능을 달성하였다. 본 연구는 SwinTrack가 Transformer 기반 추적의 견고한 베이스라인으로 활용되길 기대하며, 향후 연구 발전을 촉진할 것으로 기대된다. 코드와 실험 결과는 https://github.com/LitingLin/SwinTrack 에 공개되어 있다.