摘要

动作质量评估（AQA）旨在通过视频自动判断人类动作并为其分配一个表现分数。现有文献中的大多数AQA研究工作将RGB视频分割为短片段，使用卷积3D（C3D）网络将这些片段转换为高层次表示，并通过平均方法进行聚合。这些高层次表示用于执行AQA。我们发现，当前基于片段的特征聚合技术——平均法无法充分捕捉片段特征的相对重要性。在本工作中，我们提出了一种基于学习的加权平均技术。利用该技术，可以在不大幅牺牲计算资源的情况下获得更好的性能。我们将这种技术称为权重决定器（Weight-Decider, WD）。此外，我们还尝试使用残差网络（ResNets）来学习更高质量的动作质量评估表示。我们评估了卷积神经网络的深度和输入片段大小对动作评分预测质量的影响。通过使用具有34层（2+1）D残差网络且能够处理32帧片段的模型，并结合WD聚合技术，我们在MTL-AQA数据集上实现了新的最先进的Spearman等级相关系数0.9315（提高了0.45%）。

源 PDF