ODTrack: 시각 추적을 위한 온라인 밀도 시간 토큰 학습

연속 비디오 프레임 간의 온라인 문맥 추론과 연관성은 시각 추적에서 인스턴스를 인식하는 데 있어 중요한 역할을 합니다. 그러나 대부분의 현재 최고 성능의 추적기는 오프라인 모드를 통해 참조 프레임과 검색 프레임 사이의 희소한 시간적 관계에 지속적으로 의존하고 있습니다. 결과적으로, 이들은 각 이미지 쌍 내에서 독립적으로 상호 작용하며 제한된 시간적 상관관계만을 설정할 수 있습니다. 위 문제를 완화하기 위해, 우리는 온라인 토큰 전파 방식으로 비디오 프레임의 문맥 관계를 밀집하게 연관시키는 단순하면서도 유연하고 효과적인 비디오 수준의 추적 파이프라인을 제안합니다. 이를 \textbf{ODTrack}이라고 명명하였습니다. ODTrack은 임의 길이의 비디오 프레임을 입력받아 인스턴스의 공간-시간 궤도 관계를 포착하며, 대상의 차별화 특징(위치 정보)을 토큰 시퀀스로 압축하여 프레임 간 연관성을 달성합니다. 이 새로운 솔루션은 다음과 같은 이점을 제공합니다: 1) 정제된 토큰 시퀀스는 다음 비디오 프레임에서 추론을 위한 힌트로 활용될 수 있으며, 과거 정보가 미래 추론을 안내하는 역할을 합니다; 2) 토큰 시퀀스의 반복적인 전파를 통해 복잡한 온라인 업데이트 전략을 효과적으로 피할 수 있으므로, 더 효율적인 모델 표현과 계산이 가능해집니다. ODTrack은 일곱 개 벤치마크에서 새로운 \textit{SOTA}(State-of-the-Art) 성능을 달성하였으며, 실시간 속도로 실행됩니다. 코드와 모델은 \url{https://github.com/GXNU-ZhongLab/ODTrack}에서 이용 가능합니다.