
摘要
传统上,目标跟踪是通过在时空中追踪兴趣点来实现的。随着强大深度神经网络的兴起,这一范式发生了转变。如今,主流的跟踪方法采用“检测-关联”流水线,即先进行目标检测,再通过时间关联实现跟踪,也称为“基于检测的跟踪”(tracking-by-detection)。在本文中,我们提出了一种新型的检测与跟踪联合算法,其结构更简单、运行更快、精度更高,显著优于当前最先进的方法。我们的跟踪器——CenterTrack,仅需输入当前帧与前一帧的检测结果,即可完成目标定位与帧间关联预测。整个过程极为简洁:仅依赖这一最小输入,CenterTrack 即可实现对目标的精确定位并建立与前一帧的关联。该方法结构简洁、支持在线处理(无需窥探未来帧),且可实现实时运行。在 MOT17 数据集上,CenterTrack 在 22 FPS 的速度下实现了 67.3% 的 MOTA 指标;在 KITTI 跟踪基准上,以 15 FPS 的速度达到 89.4% 的 MOTA,均创下该两个数据集的新纪录。此外,CenterTrack 可通过回归额外的 3D 属性,轻松扩展至单目 3D 跟踪任务。在新发布的 nuScenes 3D 跟踪基准上,仅使用单目视频输入,CenterTrack 在 [email protected] 指标上达到 28.3%,显著超越该基准上的单目基线方法,同时保持 28 FPS 的运行速度。