15 天前
TrackFormer:基于Transformer的多目标跟踪
Tim Meinhardt, Alexander Kirillov, Laura Leal-Taixe, Christoph Feichtenhofer

摘要
多目标跟踪(Multi-Object Tracking, MOT)是一项极具挑战性的任务,需要对轨迹初始化、目标身份以及时空轨迹进行联合推理。本文将该任务建模为帧间集合预测问题,并提出TrackFormer——一种基于编码器-解码器Transformer架构的端到端可训练多目标跟踪方法。通过注意力机制,模型在视频序列中演化一组轨迹预测,实现帧间的数据关联。Transformer解码器利用静态的目标查询初始化新轨迹,并通过概念新颖且保持身份一致性的轨迹查询,以自回归方式在时空维度上持续追踪已有目标。两类查询均受益于全局帧级特征的自注意力及编码器-解码器注意力机制,从而无需额外的图优化,也无需显式建模运动或外观特征。TrackFormer提出了一种基于注意力机制的新一代跟踪范式,尽管其设计简洁,却在多目标跟踪(MOT17和MOT20数据集)与多目标分割(MOTS20数据集)任务上均达到了当前最优性能。代码已开源,地址为:https://github.com/timmeinhardt/trackformer。