
视觉目标跟踪通常采用多阶段流水线,包括特征提取、目标信息融合以及边界框估计。为简化该流水线并统一特征提取与目标信息融合过程,本文提出一种基于Transformer的紧凑型跟踪框架——MixFormer。其核心设计在于利用注意力机制的灵活性,提出一种混合注意力模块(Mixed Attention Module, MAM),实现特征提取与目标信息融合的同步进行。该同步建模机制能够有效提取具有判别性的目标特征,并在目标区域与搜索区域之间实现充分的信息交互。基于MAM模块,我们通过堆叠多个MAM模块并在顶层添加定位头,构建了MixFormer跟踪器。具体而言,我们实现了两种类型的MixFormer跟踪器:一种为分层结构的MixCvT,另一种为非分层结构的MixViT。针对这两种跟踪器,我们系统研究了一系列预训练方法,并揭示了在MixFormer框架下,监督预训练与自监督预训练所表现出的不同行为特性。此外,我们将掩码预训练方法拓展至MixFormer框架,并设计了一种具有竞争力的TrackMAE预训练策略。为应对在线跟踪过程中多个目标模板带来的计算负担,我们在MAM中引入了一种非对称注意力机制,显著降低了计算开销;同时,提出一种高效的置信度预测模块,用于筛选高质量的模板。实验结果表明,所提出的MixFormer跟踪器在七个主流跟踪基准上均取得了新的最先进性能,涵盖LaSOT、TrackingNet、VOT2020、GOT-10k、OTB100和UAV123等数据集。特别地,我们的MixViT-L在LaSOT上达到73.3%的AUC得分,在TrackingNet上达到86.1%的AUC得分,在VOT2020上实现0.584的EAO得分,在GOT-10k上取得75.7%的AO得分。相关代码与训练好的模型已公开发布于:https://github.com/MCG-NJU/MixFormer。