6 个月前

摘要

作为一项视频任务，多目标跟踪（Multiple Object Tracking, MOT）需要有效捕捉目标的时序信息。然而，现有大多数方法仅显式利用相邻帧之间的目标特征，缺乏建模长期时序信息的能力。为此，本文提出MeMOTR——一种基于长期记忆增强的Transformer架构，用于多目标跟踪。通过引入定制化的记忆注意力（memory-attention）模块，该方法能够借助长期记忆注入，使同一目标的轨迹嵌入更加稳定且具有更强的可区分性，显著提升了模型的目标关联能力。在DanceTrack数据集上的实验结果表明，MeMOTR在HOTA和AssA两项指标上分别较当前最优方法提升了7.9%和13.0%。此外，该模型在MOT17数据集上也优于其他基于Transformer的跟踪方法，并在BDD100K数据集上展现出良好的泛化性能。代码已开源，地址为：https://github.com/MCG-NJU/MeMOTR。

源 PDF