13일 전

Transformer이 트래커를 만나다: 강건한 시각 추적을 위한 시간적 맥락 활용

Ning Wang, Wengang Zhou, Jie Wang, Houqaing Li
Transformer이 트래커를 만나다: 강건한 시각 추적을 위한 시간적 맥락 활용
초록

비디오 객체 추적에서 연속 프레임 간에는 풍부한 시간적 맥락이 존재하지만, 기존 추적기에서는 이 부분이 대부분 간과되어 왔다. 본 연구에서는 트랜스포머 아키텍처를 활용하여 개별 프레임을 연결하고, 그 사이의 시간적 맥락을 탐색함으로써 강건한 객체 추적을 실현한다. 기존 자연어 처리 작업에서 트랜스포머를 사용하는 전통적인 방식과 달리, 본 연구는 트랜스포머의 인코더와 디코더를 두 개의 병렬 브랜치로 분리하고, 시아메스(Siamese)-유사 추적 파이프라인 내에서 세심하게 설계하였다. 트랜스포머 인코더는 주목할 대상 템플릿을 주의 기반 특징 강화를 통해 개선하여 고품질 추적 모델 생성에 기여한다. 반면, 트랜스포머 디코더는 이전 템플릿에서 얻은 추적 신호를 현재 프레임으로 전파함으로써 객체 탐색 과정을 촉진한다. 제안된 트랜스포머 기반 추적 프레임워크는 간결하며, 엔드투엔드 방식으로 훈련 가능하다. 제안된 트랜스포머를 도입함으로써, 단순한 시아메스 매칭 방식도 현재 최고 성능을 기록하는 추적기들을 능가할 수 있다. 최근 제안된 구분형 추적 파이프라인과 결합함으로써, 본 방법은 주요 추적 벤치마크에서 여러 새로운 최고 성능 기록을 수립하였다.