
초록
현재 엔드투엔드 학습이 가능한 컴퓨터 비전 시스템 개발은 시각 추적 작업에 큰 도전을 제기하고 있습니다. 대부분의 다른 비전 문제와 달리, 추적은 추론 단계에서 온라인으로 견고한 대상 특화 외관 모델을 학습해야 합니다. 엔드투엔드로 학습할 수 있도록 하려면, 대상 모델의 온라인 학습이 추적 아키텍처 자체에 통합되어야 합니다. 이러한 도전으로 인해, 인기 있는 Siamese 패러다임은 배경 외관 정보를 무시하고 대상 특징 템플릿만 예측하는 경향이 있습니다. 그 결과, 예측된 모델은 대상과 배경 간의 구분 능력이 제한적입니다.우리는 대상과 배경 외관 정보를 모두 활용하여 대상 모델을 예측할 수 있는 엔드투엔드 추적 아키텍처를 개발하였습니다. 이 아키텍처는 차별적인 학습 손실 함수에서 파생되며, 몇 번의 반복만으로 강력한 모델을 예측할 수 있는 전용 최적화 과정을 설계함으로써 가능하게�니다. 또한, 우리의 접근 방식은 차별적인 손실 함수 자체의 주요 측면들을 학습할 수 있습니다. 제안된 트래커는 6개의 추적 벤치마크에서 새로운 최고 성능을 기록하였으며, VOT2018에서 EAO 점수 0.440을 달성하면서 40 FPS 이상으로 실행됩니다. 코드와 모델은 https://github.com/visionml/pytracking 에서 제공됩니다.