
시아메즈 네트워크는 시각 추적 분야에서 그들의 균형 잡힌 정확성과 속도로 큰 주목을 받고 있습니다. 그러나 시아메즈 추적기에서 사용되는 백본 네트워크는 현대의 딥 뉴럴 네트워크의 능력을 충분히 활용하지 못하는 상대적으로 얕은 구조를 가지고 있습니다. 예를 들어, AlexNet [18]이 그러한 경우입니다. 본 논문에서는 더 깊고 넓은 컨볼루셔널 뉴럴 네트워크(CNN)를 활용하여 추적의 견고성과 정확성을 향상시키는 방법을 연구합니다. 우리는 기존의 강력한 아키텍처, 예를 들어 ResNet [14]과 Inception [33]을 백본으로 직접 대체하는 것이 개선 효과를 가져오지 않는다는 것을 관찰하였습니다. 이에 대한 주요 이유는 1) 뉴런의 수용 영역(receptive field)이 크게 증가하면 특징 구별력과 위치 정밀도가 감소하고, 2) 컨볼루션을 위한 네트워크 패딩(padding)이 학습 과정에서 위치 편향(positional bias)을 유발하기 때문입니다. 이러한 문제들을 해결하기 위해, 우리는 패딩의 부정적인 영향을 제거하는 새로운 잔차 모듈(residual module)을 제안하며, 이를 통해 수용 영역 크기와 네트워크 스트라이드(stride)를 제어하는 새로운 아키텍처를 설계하였습니다. 설계된 아키텍처들은 경량화되어 있으며, SiamFC [2]와 SiamRPN [20]에 적용할 때 실시간 추적 속도를 보장합니다. 실험 결과, 제안된 네트워크 아키텍처만으로도 OTB-15, VOT-16 및 VOT-17 데이터셋에서 원래 버전 [2, 20]보다 각각 최대 9.8%/5.7% (AUC), 23.3%/8.8% (EAO), 그리고 24.4%/25.0% (EAO)의 상대적인 성능 향상을 얻었습니다.