
摘要
如何有效学习目标外观的时序变化,同时排除杂乱背景的干扰,并保持实时响应能力,是视觉目标跟踪领域的一个核心问题。近年来,基于匹配的孪生网络(Siamese networks)在实现精度与速度之间的良好平衡方面展现出巨大潜力,能够达到超越实时的运行速度。然而,与基于分类与更新机制的跟踪器相比,其在应对目标外观及成像条件的时序变化方面仍存在显著差距。本文提出一种动态孪生网络(Dynamic Siamese Network),通过引入一种快速变换学习模型,实现对前序帧中目标外观变化的有效在线学习,并实现背景抑制。此外,我们设计了逐元素多层融合机制(elementwise multi-layer fusion),以自适应方式融合多层级深度特征,从而更充分地利用不同层次的语义信息。与现有先进跟踪算法不同,本方法可灵活使用任何可行的通用或特定训练特征,例如 SiamFC 和 VGG 等模型,具有良好的兼容性。更重要的是,所提出的动态孪生网络可直接在带标注的视频序列上进行端到端联合训练,从而充分挖掘运动目标所蕴含的丰富时空信息。实验结果表明,该方法在 OTB-2013 和 VOT-2015 两个主流基准测试上均取得了当前最优性能,且在跟踪精度与实时响应之间的平衡性方面显著优于现有先进方法,展现出卓越的综合性能。