2 个月前

更深层更宽广的孪生网络用于实时视觉跟踪

Zhipeng Zhang; Houwen Peng
更深层更宽广的孪生网络用于实时视觉跟踪
摘要

由于其在准确性和速度之间的平衡,Siamese网络在视觉跟踪领域受到了广泛关注。然而,Siamese跟踪器中使用的骨干网络相对较为浅层,例如AlexNet [18],未能充分利用现代深度神经网络的能力。本文研究了如何利用更深、更宽的卷积神经网络来提高跟踪的鲁棒性和准确性。我们观察到,直接用现有的强大架构(如ResNet [14]和Inception [33])替换骨干网络并不能带来性能提升。主要原因有两点:1) 神经元的感受野大幅增加导致特征区分能力和定位精度下降;2) 卷积操作中的网络填充引入了学习过程中的位置偏差。为了解决这些问题,我们提出了一种新的残差模块以消除填充带来的负面影响,并进一步设计了使用这些模块的新架构,通过控制感受野大小和网络步幅来实现这一目标。所设计的架构轻量且在应用于SiamFC [2]和SiamRPN [20]时能保证实时跟踪速度。实验结果表明,仅由于所提出的网络架构,我们的SiamFC+和SiamRPN+分别在OTB-15、VOT-16和VOT-17数据集上相对于原始版本 [2, 20] 获得了高达9.8%/5.7%(AUC)、23.3%/8.8%(EAO)和24.4%/25.0%(EAO)的相对性能提升。

更深层更宽广的孪生网络用于实时视觉跟踪 | 最新论文 | HyperAI超神经