OneTracker: 시각적 객체 추적을 위한 기초 모델과 효율적인 튜닝의 통합

시각 객체 추적은 첫 번째 프레임에서의 초기 모습을 기반으로 각 프레임의 대상 객체를 위치 결정하는 것을 목표로 합니다. 입력 모달리티에 따라 추적 작업은 RGB 추적과 RGB+X(예: RGB+N, RGB+D) 추적으로 나눌 수 있습니다. 다양한 입력 모달리티에도 불구하고, 추적의 핵심 측면은 시간적인 매칭입니다. 이 공통점을 바탕으로, 우리는 다양한 추적 작업을 통합하는 일반적인 프레임워크인 OneTracker를 제안합니다. OneTracker는 먼저 Foundation Tracker라는 RGB 추적기에서 대규모 사전 훈련을 수행합니다. 이 사전 훈련 단계는 Foundation Tracker가 대상 객체의 위치를 안정적으로 예측할 수 있는 능력을 제공합니다. 그런 다음 다른 모달리티 정보를 프롬프트로 간주하고 Foundation Tracker 위에 Prompt Tracker를 구축합니다. Foundation Tracker를 동결시키고 일부 추가적인 학습 가능한 매개변수만 조정함으로써, Prompt Tracker는 Foundation Tracker로부터 강력한 위치 결정 능력을 억제하고 하류 RGB+X 추적 작업에서 매개변수 효율적인 미세 조정을 달성합니다. 우리의 일반적인 프레임워크 OneTracker(Foundation Tracker와 Prompt Tracker로 구성됨)의 효과성을 평가하기 위해, 11개 벤치마크에 걸친 6개의 인기 있는 추적 작업에서 광범위한 실험을 수행했습니다. 실험 결과, OneTracker는 다른 모델들을 앞지르고 최신 성능을 달성했습니다.