2달 전

SDSTrack: 다중 모드 시각 객체 추적을 위한 자기 증류 대칭 어댑터 학습

Xiaojun Hou; Jiazheng Xing; Yijie Qian; Yaowei Guo; Shuo Xin; Junhao Chen; Kai Tang; Mengmeng Wang; Zhengkai Jiang; Liang Liu; Yong Liu
SDSTrack: 다중 모드 시각 객체 추적을 위한 자기 증류 대칭 어댑터 학습
초록

다중 모드 시각 객체 추적(Multimodal Visual Object Tracking, VOT)은 최근 그 강건성으로 인해 많은 주목을 받고 있습니다. 초기 연구는 완전한 미세 조정(fine-tuning)에 초점을 맞추어 RGB 기반 추적기를 활용하였으나, 이는 비효율적이었으며 다중 모드 데이터의 부족으로 일반화된 표현이 부족했습니다. 따라서 최근 연구에서는 프롬프트 조정(prompt tuning)을 이용하여 사전 학습된 RGB 기반 추적기를 다중 모드 데이터로 전환하는 방법을 사용하고 있습니다. 그러나 모달 간 차이(modality gap)가 사전 학습된 지식의 재활용을 제한하며, RGB 모달의 우위성이 계속되면서 다른 모달에서 제공되는 정보를 완전히 활용하지 못하는 문제가 발생합니다. 이러한 문제들을 해결하기 위해, 우리는 새로운 대칭 다중 모드 추적 프레임워크인 SDSTrack을 제안합니다. 효율적인 미세 조정을 위한 경량 적응(lightweight adaptation) 방식을 도입하여, 소수의 학습 가능한 매개변수로 RGB에서 다른 영역으로 특징 추출 능력을 직접 전송하고, 다중 모달 특징을 균형 잡히고 대칭적으로 통합합니다. 또한, 복잡한 환경(극단적인 날씨, 불량 이미징, 센서 고장 등)에서 추적기의 강건성을 향상시키기 위해 보완적인 마스킹 패치 정제(complementary masked patch distillation) 전략을 설계하였습니다. 광범위한 실험 결과 SDSTrack은 RGB+깊이(RGB+Depth), RGB+열(RGB+Thermal), 그리고 RGB+이벤트(RGB+Event) 추적과 같은 다양한 다중 모드 추적 시나리오에서 최신 방법론보다 우수한 성능을 보였으며, 극단적인 조건에서도 뛰어난 결과를 나타냈습니다. 우리의 소스 코드는 https://github.com/hoqolo/SDSTrack에서 확인할 수 있습니다.