
摘要
图结构为在“检测后跟踪”(tracking-by-detection)范式下建模多目标跟踪(Multiple Object Tracking, MOT)提供了一种自然的表达方式。然而,这种结构也给学习方法带来了重大挑战,因为设计一个能够在此类结构化域上有效运行的模型并非易事。因此,大多数基于学习的方法主要致力于提升MOT的特征表示,并将其与成熟的优化框架结合使用。在本工作中,我们利用MOT的经典网络流(network flow)建模方式,构建了一个基于消息传递网络(Message Passing Networks, MPNs)的完全可微分框架。通过直接在图结构域上进行操作,我们的方法能够对全部检测结果进行全局推理,并预测最终的跟踪结果。由此我们证明,MOT中的学习不仅限于特征提取,还可以直接应用于数据关联(data association)阶段。在三个公开可用的基准测试中,我们的方法在MOTA和IDF1指标上均取得了显著提升。相关代码已开源,地址为:https://bit.ly/motsolv。