
摘要
视觉目标跟踪旨在精确估计给定目标的边界框,由于形变、遮挡等因素的存在,该任务极具挑战性。近年来,许多跟踪器采用多阶段跟踪策略以提升边界框估计的精度。这类方法首先粗略定位目标,随后在后续阶段逐步优化初始预测结果。然而,现有方法在精度方面仍存在局限,且各阶段之间的强耦合严重制约了方法的可迁移性。本文提出一种新颖、灵活且高精度的优化模块——Alpha-Refine(AR),能够显著提升基础跟踪器的边界框估计性能。通过系统探索一系列设计选项,我们发现成功实现精细化优化的关键在于尽可能地提取并保持详细的时空信息。基于这一原则,Alpha-Refine 采用像素级相关性计算、角点预测头以及辅助掩码头作为核心组件。在 TrackingNet、LaSOT、GOT-10K 和 VOT2020 等多个基准测试上,结合多种基础跟踪器进行的全面实验表明,所提方法在引入极少额外延迟的情况下,显著提升了基础跟踪器的性能。由此衍生出的一系列增强型跟踪器中,AR-SiamRPN(AR增强的 SiamRPNpp)与 AR-DiMP50(AR增强的 DiMP50)在效率与精度之间实现了良好平衡;而 AR-DiMPsuper(AR增强的 DiMP-super)则在实时运行速度下达到了极具竞争力的性能表现。相关代码与预训练模型已开源,地址为:https://github.com/MasterBin-IIAU/AlphaRefine。