Siamese 트래커에서 비대칭 특징 맵을 융합하는 방법 학습하기

최근 Siamese 기반 추적기들은 시각 추적 분야에서 희망적인 성능을 달성하고 있다. 대부분의 최신 Siamese 기반 추적기는 타겟 영역과 탐색 영역의 두 개의 특징 맵으로부터 다중 채널 상관 정보를 얻기 위해 깊이 제한형 교차상관(Deep-wise Cross-Correlation, DW-XCorr)을 사용한다. 그러나 DW-XCorr는 Siamese 기반 추적에서 몇 가지 한계를 지닌다. 먼저, 방해 요소(distractors)에 쉽게 속을 수 있으며, 활성화된 채널 수가 적고, 객체 경계의 구분 능력이 약하다는 문제가 있다. 또한 DW-XCorr는 수작업으로 설계된 파라미터 없는 모듈이며, 대규모 데이터에서의 오프라인 학습의 장점을 충분히 활용하지 못한다.이에 우리는 대규모 데이터에서 오프라인 학습을 통해 의미적 상관 관계 정보를 보다 효과적으로 포착할 수 있도록 학습 가능한 모듈인 비대칭 컨볼루션(Asymmetric Convolution Module, ACM)을 제안한다. DW-XCorr 및 그 전신인 XCorr와 달리, ACM은 단일 특징 맵을 컨볼루션 커널로 간주하는 방식이 아니라, 연결된 특징 맵 위에서 컨볼루션 연산을 두 개의 수학적으로 동치인 연산으로 분해함으로써, 연결 시 두 특징 맵의 크기(너비와 높이)가 동일할 필요가 없도록 한다. 이로 인해 더 유연한 아키텍처 설계가 가능해진다.또한 ACM은 표준 시각적 특징과 함께 경계 박스 크기와 같은 유용한 사전 지식(prior information)을 쉽게 통합할 수 있다. 더불어, 기존의 DW-XCorr 또는 XCorr 기반 Siamese 추적기와의 통합도 간편하게 수행할 수 있다. 일반화 능력을 입증하기 위해, 우리는 ACM을 세 가지 대표적인 추적기인 SiamFC, SiamRPN++, 그리고 SiamBAN에 각각 통합하였다. 실험 결과, 제안한 ACM은 여섯 개의 추적 벤치마크에서 기존 방법들을 능가함을 확인하였다. 특히 LaSOT 테스트 세트에서, 기준 모델 대비 성공률(AUC) 기준으로 5.8%의 유의미한 성능 향상을 달성하였다.