
摘要
本文提出了一项关于足球视频中多模态(音频和视频)动作检测与分类的研究。动作检测与分类的任务在于在视频中找到事件的时间锚点,并确定这些时间锚点对应的事件。这是泛活动理解的一个重要应用。在此研究中,我们提出了一项实验性研究,探讨如何在深度神经网络架构的不同阶段结合音频和视频信息。我们使用了SoccerNet基准数据集,该数据集包含来自欧洲五大联赛的500场足球比赛视频的标注事件。通过这项工作,我们评估了几种将音频流整合到仅基于视频的架构中的方法。结果表明,对于动作分类任务,平均绝对改进为均值平均精度(mAP)指标提高了7.43%;对于动作检测任务,平均绝对改进为均值平均精度(mAP)指标提高了4.19%。