2 个月前
混合动态-静态上下文感知注意力网络在长视频中的动作评估
Zeng, Ling-An ; Hong, Fa-Ting ; Zheng, Wei-Shi ; Yu, Qi-Zhi ; Zeng, Wei ; Wang, Yao-Wei ; Lai, Jian-Huang

摘要
动作质量评估的目标是对体育视频进行评分。然而,现有的大多数研究仅关注视频的动态信息(即,运动信息),而忽略了运动员在视频中执行的具体姿势,这对于长视频中的动作评估尤为重要。在本工作中,我们提出了一种新颖的混合动态-静态情境感知注意力网络(ACTION-NET),用于长视频的动作评估。为了学习更具区分性的视频表示,我们不仅学习了视频的动态信息,还重点关注了特定帧中检测到的运动员的静态姿势,这些姿势代表了某些时刻的动作质量,并借助所提出的混合动态-静态架构来实现这一目标。此外,我们利用了一个由时间实例图卷积网络单元和注意力单元组成的情境感知注意力模块,分别对两个流提取更强大的流特征。前者用于探索实例之间的关系,后者则为每个实例分配适当的权重。最后,我们将两个流的特征结合起来回归最终的视频评分,并通过专家给出的真实评分进行监督。另外,我们收集并标注了一个新的韵律体操数据集,该数据集包含四种不同类型的体操套路视频,用于评估长视频中的动作质量。大量的实验结果验证了我们所提出方法的有效性,其性能优于相关方法。代码和数据集可在以下网址获取:\url{https://github.com/lingan1996/ACTION-NET}。