인간의 의도 추론을 통한 추적

감지 모델링의 발전은 객체 추적 성능을 크게 향상시켰다. 그러나 현재의 초기 프레임에서 대상 객체를 지정하는 방법은 1) 박스 또는 마스크 템플릿을 사용하거나, 2) 명시적인 언어 설명을 제공하는 방식으로 제한되어 있다. 이러한 방식은 번거롭고, 추적기가 자가 추론 능력을 갖추는 것을 불가능하게 한다. 따라서 본 연구는 새로운 추적 작업인 ‘지시 추적(Instruction Tracking)’을 제안한다. 이 작업은 추적 대상을 암시적으로 지시하는 방식을 통해, 추적기가 비디오 프레임 내에서 자동으로 추적을 수행하도록 한다. 이를 달성하기 위해, 대규모 시각-언어 모델(LVLM, Large Vision-Language Model)의 지식과 추론 능력을 객체 추적에 통합하는 방안을 탐구한다. 구체적으로, 복잡한 추론 기반 추적을 수행할 수 있는 추적기인 TrackGPT를 제안한다. TrackGPT는 먼저 LVLM을 활용하여 추적 지시사항을 이해하고, 추적 대상에 대한 단서를 참조 임베딩(referencing embeddings)으로 압축한다. 이후 인지 모듈은 이 임베딩을 기반으로 추적 결과를 생성한다. TrackGPT의 성능을 평가하기 위해, 지시 조정 및 평가를 위한 천 개 이상의 지시-비디오 쌍을 포함하는 지시 추적 벤치마크인 InsTrack을 구축하였다. 실험 결과, TrackGPT는 Refer-DAVIS와 같은 참조 비디오 객체 세그멘테이션 벤치마크에서 경쟁력 있는 성능을 달성하였으며, 특히 Refer-DAVIS에서 66.5 $\mathcal{J}\&\mathcal{F}$의 새로운 최고 성능을 기록하였다. 또한, 새로운 평가 프로토콜 하에서 지시 추적에 있어 뛰어난 성능을 보였다. 코드와 모델은 \href{https://github.com/jiawen-zhu/TrackGPT}{https://github.com/jiawen-zhu/TrackGPT}에서 공개되어 있다.