2달 전
ProContEXT: 진행형 컨텍스트 트랜스포머를 활용한 추적 연구
Jin-Peng Lan; Zhi-Qi Cheng; Jun-Yan He; Chenyang Li; Bin Luo; Xu Bao; Wangmeng Xiang; Yifeng Geng; Xuansong Xie

초록
기존의 시각 객체 추적(Visual Object Tracking, VOT)은 첫 프레임에서의 대상 영역만을 템플릿으로 사용합니다. 이는 빠르게 변화하고 혼잡한 장면에서 객체의 외관 변화를 고려하지 못하기 때문에 추적이 불가피하게 실패할 수 있습니다. 이를 해결하기 위해, 우리는 공간적 및 시간적 맥락을 일관되게 활용하여 객체 운동 궤적을 예측하는 진보적인 맥락 인코딩 트랜스포머 추적기(Progressive Context Encoding Transformer Tracker, ProContEXT)로 추적 프레임워크를 개편하였습니다. 구체적으로, ProContEXT는 맥락 인식 자기 주의 모듈(context-aware self-attention module)을 활용하여 공간적 및 시간적 맥락을 인코딩하며, 다중 스케일 정적 및 동적 템플릿을 세밀히 수정하고 업데이트하여 점진적으로 정확한 추적을 수행합니다. 또한, ProContEXT는 공간적과 시간적 맥락 간의 보완성을 탐구하여 트랜스포머 기반 추적기의 다중 맥락 모델링에 새로운 접근 방식을 제시합니다. 더불어, ProContEXT는 토큰 가위치기(token pruning) 기술을 개정하여 계산 복잡도를 줄였습니다. GOT-10k와 TrackingNet 등 인기 벤치마크 데이터셋에서 실시된 광범위한 실험 결과, 제안된 ProContEXT가 최고 수준의 성능을 달성함이 입증되었습니다.