
摘要
近期在视觉跟踪领域的进展主要基于暹罗特征提取器和模板匹配技术。对于此类跟踪器,最新的研究集中在改进特征嵌入和相似度量方面。在这项工作中,我们专注于构建用于跟踪的整体对象表示。我们提出了一种框架,该框架设计为可以在先前的跟踪器上直接使用,而无需对暹罗网络进行进一步训练。该框架利用了在跟踪过程中获取额外对象模板的思想。由于存储的模板数量有限,我们的方法仅保留最具多样性的模板。我们通过在暹罗特征空间中提供一种新的多样性度量来实现这一点。所获得的表示不仅包含了系统提供的真实对象位置信息,还包含更多其他信息。这不仅有助于提高跟踪性能,还适用于需要对对象进行视觉理解的其他任务。在多个跟踪基准上的强大实证结果表明,我们的方法可以在几乎不影响速度的情况下显著提升基础跟踪器的性能和鲁棒性。此外,尽管使用了更简单、更旧的网络架构,我们的方法仍能匹配当前最先进的结果,并且运行速度提高了三倍。