SMILEtrack:面向遮挡感知的多目标追踪的相似性学习

尽管多目标跟踪(Multiple Object Tracking, MOT)领域近年来取得了显著进展,但遮挡、外观相似目标以及复杂场景等挑战依然难以克服。与此同时,针对当前主流的“检测后跟踪”(tracking-by-detection)范式在成本与性能之间权衡关系的系统性研究仍显不足。本文提出了一种名为SMILEtrack的新型目标跟踪框架,通过将高效的目标检测器与基于孪生网络的相似性学习模块(Siamese Network-based Similarity Learning Module, SLM)相结合,有效应对上述挑战。SMILEtrack的技术贡献主要体现在两个方面:首先,我们提出了一种新颖的SLM模块,用于计算两个目标之间的外观相似性,克服了传统“分离检测与嵌入”(Separate Detection and Embedding, SDE)模型中特征描述子表达能力有限的问题。该SLM引入了受视觉Transformer启发的局部自注意力块(Patch Self-Attention, PSA),能够生成更具判别性的特征表示,从而实现更精确的相似性匹配。其次,我们设计了一种新型的相似性匹配级联模块(Similarity Matching Cascade, SMC),并引入一种创新的GATE函数,以增强在连续视频帧间进行鲁棒目标匹配的能力,进一步提升了MOT的整体性能。上述创新共同使SMILEtrack在多个主流基准测试中实现了更优的成本-性能权衡关系,包括广泛使用的BYTETrack方法。在MOT17和MOT20数据集上,SMILEtrack相较BYTETrack的MOTA指标提升0.4–0.8个百分点,HOTA指标提升2.1–2.2个百分点。相关代码已开源,访问地址为:https://github.com/pingyang1117/SMILEtrack_Official。