2 个月前
FineParser:一种用于以人为中心的动作质量评估的细粒度时空动作解析器
Xu, Jinglin ; Yin, Sibo ; Zhao, Guohao ; Wang, Zishuo ; Peng, Yuxin

摘要
现有的动作质量评估(AQA)方法主要在视频层面学习深度表示以对各种动作进行评分。由于缺乏对视频中动作的细粒度理解,这些方法在可信度和可解释性方面存在严重不足,因此无法满足诸如奥运会跳水比赛等严格应用的需求。我们认为,细粒度的动作理解需要模型在时间和空间上感知和解析动作,这也是提高AQA技术可信度和可解释性的关键。基于这一见解,我们提出了一种新的细粒度时空动作解析器——FineParser。该解析器通过关注每帧中的目标动作区域并利用其在时间和空间上的细粒度对齐来学习以人为中心的前景动作表示,从而在评估过程中最小化无效背景的影响。此外,我们为FineDiving数据集构建了以人为中心的前景动作掩码的细粒度注释,称为FineDiving-HM。通过对多种目标动作流程进行精细注释,FineDiving-HM可以促进现实世界中AQA系统的开发。通过大量实验,我们展示了FineParser的有效性,它不仅超越了现有最先进方法,还支持更多细粒度动作理解的任务。数据和代码可在以下网址获取:https://github.com/PKU-ICST-MIPL/FineParser_CVPR2024。