
摘要
现有的孪生网络或Transformer跟踪器通常将视觉目标跟踪问题建模为单次检测任务,即在单次前向传播过程中定位目标对象。尽管这类方法已展现出显著成效,但由于其依赖单次前向传播机制,缺乏自我修正能力,因此在面对外观相似的干扰项时容易发生目标漂移。为解决这一问题,本文将视觉跟踪建模为基于点集的去噪扩散过程,并提出一种新型生成式学习跟踪器——DiffusionTrack。该方法具备两个突出优势:(1)提出了一种新颖的“噪声到目标”跟踪范式,通过多步去噪扩散过程,在每一帧中以动态搜索的方式逐步精确定位目标;(2)采用点集表示来建模扩散过程,能够更有效地应对外观变化,从而实现更精准的定位。此外,该方法的一个附加优势是大幅简化了后处理流程,例如无需再使用窗口惩罚(window penalty)等复杂策略。在不依赖额外技巧(bells and whistles)的情况下,DiffusionTrack在多项主流基准上达到了领先性能,并支持实时运行。代码已开源,地址为:https://github.com/VISION-SJTU/DiffusionTrack。