6 个月前

摘要

尽管多目标跟踪（Multiple Object Tracking, MOT）领域近年来取得了显著进展，但遮挡、外观相似目标以及复杂场景等挑战依然难以克服。与此同时，针对当前主流的“检测后跟踪”（tracking-by-detection）范式在成本与性能之间权衡关系的系统性研究仍显不足。本文提出了一种名为SMILEtrack的新型目标跟踪框架，通过将高效的目标检测器与基于孪生网络的相似性学习模块（Siamese Network-based Similarity Learning Module, SLM）相结合，有效应对上述挑战。SMILEtrack的技术贡献主要体现在两个方面：首先，我们提出了一种新颖的SLM模块，用于计算两个目标之间的外观相似性，克服了传统“分离检测与嵌入”（Separate Detection and Embedding, SDE）模型中特征描述子表达能力有限的问题。该SLM引入了受视觉Transformer启发的局部自注意力块（Patch Self-Attention, PSA），能够生成更具判别性的特征表示，从而实现更精确的相似性匹配。其次，我们设计了一种新型的相似性匹配级联模块（Similarity Matching Cascade, SMC），并引入一种创新的GATE函数，以增强在连续视频帧间进行鲁棒目标匹配的能力，进一步提升了MOT的整体性能。上述创新共同使SMILEtrack在多个主流基准测试中实现了更优的成本-性能权衡关系，包括广泛使用的BYTETrack方法。在MOT17和MOT20数据集上，SMILEtrack相较BYTETrack的MOTA指标提升0.4–0.8个百分点，HOTA指标提升2.1–2.2个百分点。相关代码已开源，访问地址为：https://github.com/pingyang1117/SMILEtrack_Official。

源 PDF