SUTrack: 단순하고 통합적인 단일 객체 추적을 향해

본 논문에서는 단일 객체 추적(Single Object Tracking, SOT)의 간단하면서도 통합적인 프레임워크인 SUTrack을 제안한다. SUTrack은 RGB 기반 추적, RGB-Depth, RGB-열화상, RGB-이벤트, RGB-언어 추적 등 다섯 가지 SOT 작업을 하나의 모델에 통합하여 단일 세션 내에서 훈련할 수 있도록 한다. 현재의 방법들은 각 작업의 데이터 특성이 다르기 때문에, 각각의 작업에 맞춰 독립적인 아키텍처를 설계하고 별도의 모델을 훈련하는 방식을 채택하고 있다. 이러한 분산된 접근은 반복적인 훈련 과정과 중복된 기술적 혁신을 초래하며, 다양한 모달 간 지식 공유의 가능성을 제한한다. 반면, SUTrack은 통합된 입력 표현을 가진 단일 모델이 다양한 일반적인 SOT 작업을 효과적으로 처리할 수 있음을 보여주며, 작업별 특화 설계 및 별도의 훈련 세션의 필요성을 제거한다. 또한, 작업 인식을 위한 보조 훈련 전략과 소프트 토큰 유형 임베딩(soft token type embedding)을 도입하여 SUTrack의 성능을 최소한의 부담으로 더욱 향상시켰다. 실험 결과, SUTrack은 다섯 가지 SOT 작업을 아우르는 11개의 데이터셋에서 이전의 작업별 특화 모델들을 모두 상회하는 성능을 보였다. 더불어, 엣지 디바이스부터 고성능 GPU에 이르기까지 다양한 환경을 고려한 다양한 크기의 모델을 제공하여 속도와 정확도 사이의 균형을 잘 잡았다. 우리는 SUTrack이 향후 통합 추적 모델에 대한 보다 강력한 연구 기반으로 활용되기를 기대한다. 코드와 모델은 github.com/chenxin-dlut/SUTrack에서 공개된다.