
摘要
尽管在鲁棒视觉跟踪领域已取得显著进展,但精确的目标状态估计仍是极具挑战性的问题。本文认为,这一难题与当前广泛采用的边界框(bounding box)表示方式密切相关,因为边界框仅能提供目标物体粗略的空间范围。为此,本文提出一种高效的视觉跟踪框架,采用一组代表性点作为更精细的表示方式,以实现对目标状态的精确估计。该点集经过训练,能够准确指示目标区域在语义和几何意义上的关键位置,从而实现更精细的定位与目标外观建模。此外,本文进一步提出一种多层级聚合策略,通过融合不同层级的卷积特征层,有效获取目标的详细结构信息。在OTB2015、VOT2018、VOT2019和GOT-10k等多个具有挑战性的基准数据集上的大量实验表明,所提方法在实现超过20 FPS实时运行速度的同时,达到了新的最先进性能。