2 个月前
MOTR:基于Transformer的端到端多目标跟踪
Zeng, Fangao ; Dong, Bin ; Zhang, Yuang ; Wang, Tiancai ; Zhang, Xiangyu ; Wei, Yichen

摘要
多目标跟踪(MOT)中的时间建模是一个关键挑战。现有的方法通过基于运动和外观相似性的启发式规则来关联检测结果。然而,这种关联的后处理性质阻碍了对视频序列中时间变化的端到端利用。在本文中,我们提出了MOTR,该方法扩展了DETR并引入了轨迹查询(track query),以在整个视频中建模被跟踪的目标实例。轨迹查询逐帧传递和更新,从而实现随时间的迭代预测。我们提出了一种轨迹片段感知的标签分配方法来训练轨迹查询和新生对象查询。此外,我们还提出了时间聚合网络和集体平均损失,以增强时间关系建模。实验结果显示,在DanceTrack数据集上,MOTR在HOTA指标上显著优于最先进的方法ByteTrack,提高了6.5%;在MOT17数据集上,MOTR在关联性能方面也超过了同期的工作TrackFormer和TransTrack。MOTR可以作为未来研究中时间建模和基于Transformer的跟踪器的一个更强的基线模型。代码可在https://github.com/megvii-research/MOTR获取。