
摘要
跟踪通常采用多阶段管道,包括特征提取、目标信息融合和边界框估计。为了简化这一流程并统一特征提取和目标信息融合的过程,我们提出了一种基于变压器(transformers)的紧凑跟踪框架,称为MixFormer。我们的核心设计是利用注意力操作的灵活性,并提出了一个混合注意力模块(Mixed Attention Module, MAM),用于同时进行特征提取和目标信息融合。这种同步建模方案能够提取特定于目标的判别特征,并在目标和搜索区域之间进行广泛的通信。基于MAM,我们通过堆叠多个MAM并逐步嵌入补丁,在顶部放置一个定位头来构建MixFormer跟踪框架。此外,为了在线跟踪过程中处理多个目标模板,我们在MAM中设计了一个非对称注意力方案以降低计算成本,并提出了一种有效的分数预测模块来选择高质量的模板。我们的MixFormer在五个跟踪基准测试中取得了新的最佳性能,这些基准测试包括LaSOT、TrackingNet、VOT2020、GOT-10k和UAV123。特别是,我们的MixFormer-L在LaSOT上达到了79.9%的NP得分,在TrackingNet上达到了88.9%的NP得分,在VOT2020上达到了0.555的EAO得分。我们还进行了深入的消融研究,以证明同时进行特征提取和信息融合的有效性。代码和训练模型已公开发布在https://github.com/MCG-NJU/MixFormer。