
摘要
近期,基于深度神经网络(DNN)的视觉跟踪解决方案得到了迅速发展。一些跟踪器将基于DNN的解决方案与判别相关滤波器(DCF)相结合,提取语义特征,并成功实现了最先进的跟踪精度。然而,这些解决方案计算量巨大,需要较长的处理时间,导致实时性能不稳定。为了同时实现高精度和可靠的实时性能,我们提出了一种名为SiamVGG的新跟踪器(详见:https://github.com/leeyeehoo/SiamVGG)。该跟踪器结合了卷积神经网络(CNN)主干和交叉相关运算符,并利用示例图像中的特征进行更精确的目标跟踪。SiamVGG的架构是在VGG-16的基础上定制的,参数由示例图像和目标输入视频帧共享。我们在OTB-2013/50/100和VOT 2015/2016/2017数据集上展示了所提出的SiamVGG,在保持良好的实时性能(在GTX 1080Ti上运行时达到50 FPS)的同时,实现了最先进的精度。我们的设计在VOT2017挑战赛中比ECO和C-COT实现了2%更高的预期平均重叠率(EAO)。