
摘要
为了实现体育赛事自动制作的目标,一个关键任务在于理解比赛中的高层次语义信息。例如,识别和定位比赛中的主要动作可以使得制作人员能够适应并自动化广播制作过程,专注于比赛的重要细节,从而最大化观众的参与度。本文中,我们集中分析了足球赛事广播中的动作定位问题,即在时间上精确定位足球比赛中发生的主要动作。为此,我们提出了一种基于NetVLAD的新特征池化方法——NetVLAD++,该方法嵌入了时间感知知识。与以往将时间上下文视为单一集合进行池化的池化方法不同,我们在动作发生前后的上下文进行了分割。我们认为,将动作定位点周围的上下文信息作为一个整体来考虑会导致池化模块的学习效果不佳。通过NetVLAD++,我们将过去的帧和未来的帧的上下文分离,并为每个子集学习特定的语义词汇表,避免了这些词汇表在时间上的混合和模糊。注入这种先验知识可以创建更具信息量的池化模块和更具区分性的池化特征,从而更好地理解动作。我们在最近的大规模数据集SoccerNet-v2上训练并评估了我们的方法,在动作定位任务上达到了53.4%的平均mAP(mean Average Precision),相比当前最先进的方法提高了12.7%。