11 天前

MeMOTR:用于多目标跟踪的长期记忆增强型Transformer

Ruopeng Gao, Limin Wang
MeMOTR:用于多目标跟踪的长期记忆增强型Transformer
摘要

作为一项视频任务,多目标跟踪(Multiple Object Tracking, MOT)需要有效捕捉目标的时序信息。然而,现有大多数方法仅显式利用相邻帧之间的目标特征,缺乏建模长期时序信息的能力。为此,本文提出MeMOTR——一种基于长期记忆增强的Transformer架构,用于多目标跟踪。通过引入定制化的记忆注意力(memory-attention)模块,该方法能够借助长期记忆注入,使同一目标的轨迹嵌入更加稳定且具有更强的可区分性,显著提升了模型的目标关联能力。在DanceTrack数据集上的实验结果表明,MeMOTR在HOTA和AssA两项指标上分别较当前最优方法提升了7.9%和13.0%。此外,该模型在MOT17数据集上也优于其他基于Transformer的跟踪方法,并在BDD100K数据集上展现出良好的泛化性能。代码已开源,地址为:https://github.com/MCG-NJU/MeMOTR。