
摘要
在通用视觉目标跟踪中,学习一个判别模型以区分目标与其周围干扰物是至关重要的。由于现有跟踪器的判别能力有限,动态适应目标表示以对抗干扰物具有挑战性。为了解决这一问题,我们提出了一种新的用于通用视觉目标跟踪的视觉提示机制(PiVOT)。PiVOT引入了一个基于预训练基础模型CLIP的提示生成网络,能够自动生成并优化视觉提示,从而实现基础模型知识向跟踪任务的迁移。虽然CLIP提供了广泛的类别级知识,但通过实例特定数据训练的跟踪器在识别独特的目标实例方面表现出色。因此,PiVOT首先生成一个突出潜在目标位置的视觉提示。为了将CLIP的知识迁移到跟踪器中,PiVOT利用CLIP根据候选对象与参考模板之间的相似性来优化视觉提示,从而更好地突出潜在目标位置,减少无关提示信息。通过所提出的提示机制,跟踪器可以在视觉提示的引导下生成改进的实例感知特征图,从而有效减少干扰物的影响。该方法在训练过程中不涉及CLIP,因此保持了相同的训练复杂度,并保留了预训练基础模型的泛化能力。多项基准测试表明,使用所提出的提示方法的PiVOT可以抑制干扰物体并增强跟踪器的效果。