2 个月前

TrackNetV2：高效羽毛球追踪网络

{Tsì-Uí İk, Ho-Yi Chung, Dung-Ru Yu, Tzu-Han Hsu, Shao-Ping Chuang, Yu-Ching Lin, Nien-En Sun}

摘要

TrackNet是一种基于深度学习的网络模型，旨在从视频中追踪高速且尺寸微小的物体，例如网球和羽毛球。为应对图像质量低下的问题（如模糊、拖影及短时遮挡），该模型采用连续多帧图像作为输入，以提升对运动物体的检测能力。在此基础上，本文提出TrackNetV2，从多个方面对原始TrackNet进行优化，尤其在处理速度、预测精度和GPU内存占用方面实现显著提升。首先，处理速度由原先的2.6 FPS大幅提升至31.8 FPS。这一性能跃升主要得益于输入图像尺寸的减小，以及网络结构从原有的“多输入单输出”（Multiple-In Single-Out, MISO）设计重构为“多输入多输出”（Multiple-In Multiple-Out, MIMO）架构，从而显著提升了计算效率与并行处理能力。其次，为提升预测精度，研究团队收集并标注了一个涵盖多样化羽毛球比赛视频的综合性数据集，用于模型的训练与测试。该数据集共包含来自18段羽毛球比赛视频的55,563帧图像。在模型结构方面，TrackNetV2融合了VGG16主干网络、上采样层以及U-Net的编码-解码结构，增强了特征提取与空间定位能力。最后，为降低GPU内存消耗，研究对热图层（heatmap layer）的数据结构进行了重构：将原有的基于像素级独热编码（one-hot encoding）的3D数组形式，改为实数值的2D数组表示。为适配这一新的热图表示方式，损失函数也进行了重新设计，由原先基于均方根误差（RMSE）的形式，改为基于加权交叉熵（weighted cross-entropy）的形式，以更好地反映热图分布的变化。综合验证结果表明，在训练阶段，TrackNetV2的准确率（accuracy）、精确率（precision）和召回率（recall）分别达到96.3%、97.0%和98.7%；在全新比赛视频上的测试中，各项指标分别为85.2%、97.2%和85.4%。其中，采用三输入三输出版本的TrackNetV2，处理速度可达31.84 FPS。本工作的数据集与源代码已公开，可通过以下链接获取：https://nol.cs.nctu.edu.tw:234/open-source/TrackNetv2/