17일 전

시각적 객체 추적을 위한 동적 시아모이즈 네트워크 학습

{Rui Huang, Ce Zhou, Song Wang, Qing Guo, Liang Wan, Wei Feng}
시각적 객체 추적을 위한 동적 시아모이즈 네트워크 학습
초록

목표 물체의 외형 변화를 효과적으로 학습하여 복잡한 배경의 간섭을 제거하면서도 실시간 반응을 유지하는 것은 시각적 객체 추적에서 핵심적인 과제이다. 최근, 사임즈 네트워크(Siamese networks)는 정확도와 실시간 속도 사이의 균형을 잘 이룬 매칭 기반 추적기로서 큰 잠재력을 보여주고 있다. 그러나 객체의 시간적 변화 및 촬영 조건 변화에 대한 내성을 고려할 때, 분류 및 업데이트 기반 추적기와 비교해 여전히 큰 격차를 보이고 있다. 본 논문에서는 이 문제를 해결하기 위해, 이전 프레임들로부터 목표물의 외형 변화와 배경 억제를 효과적으로 온라인 학습할 수 있는 빠른 변환 학습 모델을 기반으로 동적 사임즈 네트워크(dynamic Siamese network)를 제안한다. 또한 다층의 깊은 특징을 활용하여 네트워크 출력을 적응적으로 통합하는 원소별 다층 융합(elementwise multi-layer fusion) 기법을 제시한다. 최신 추적기들과 달리, 본 방법은 SiamFC 및 VGG와 같이 일반적으로 또는 특수하게 학습된 임의의 적합한 특징을 사용할 수 있다. 더욱 중요한 점은 제안된 동적 사임즈 네트워크가 라벨링된 동영상 시퀀스 위에서 전체적으로 직접 공동 학습될 수 있다는 점이며, 이로 인해 움직이는 객체가 지닌 풍부한 공간-시간 정보를 최대한 활용할 수 있다. 그 결과, 제안된 방법은 OTB-2013 및 VOT-2015 벤치마크에서 최고 수준의 성능을 달성하였으며, 기존 최고 수준의 경쟁자들에 비해 더욱 뛰어난 정확도와 실시간 반응성의 균형을 보였다.