6 个月前

摘要

在体育场景中的多目标跟踪（Multi-object Tracking, MOT）对于获取运动员统计数据、支持后续分析（如自动战术分析）具有关键作用。然而，现有的MOT基准数据集对该领域的关注甚少，限制了其发展。为此，本文提出一个大规模、涵盖多样化体育场景的多目标跟踪数据集，命名为 \emph{SportsMOT}，其目标是实现球场上所有运动员的持续跟踪。该数据集包含240段视频序列，超过15万帧（约为MOT17的15倍），以及超过160万个边界框（约为MOT17的3倍），数据来源于篮球、排球和足球三种体育项目。SportsMOT具有两个关键特性：一是目标运动速度快且速度变化多样；二是目标外观相似但具备可区分性。我们期望该数据集能够推动多目标跟踪算法在基于运动信息的关联与基于外观信息的关联两个方面实现全面提升。我们对多种先进的跟踪算法进行了基准测试，结果表明，SportsMOT的核心挑战在于目标关联。为缓解这一问题，我们进一步提出一种新型多目标跟踪框架——\emph{MixSort}，该框架引入一种类似MixFormer的结构作为辅助关联模块，集成于主流的“检测后跟踪”（tracking-by-detection）框架中。通过将定制化的外观关联机制与原有的运动关联机制相结合，MixSort在SportsMOT和MOT17两个数据集上均取得了当前最优的性能表现。基于MixSort，我们对SportsMOT进行了深入分析，并提炼出若干具有启发性的观察与洞见。相关数据集与代码将公开发布于：https://deeperaction.github.io/datasets/sportsmot.html。

源 PDF