2 个月前

无监督3D姿态估计在分层舞蹈视频识别中的应用

Xiaodan Hu; Narendra Ahuja
无监督3D姿态估计在分层舞蹈视频识别中的应用
摘要

舞蹈专家通常将舞蹈视为一个信息层次结构,涵盖低层(原始图像、图像序列)、中层(人体姿态和身体部位运动)和高层(舞蹈类型)。我们提出了一种分层舞蹈视频识别框架(Hierarchical Dance Video Recognition, HDVR)。该框架估计2D姿态序列,跟踪舞者,并同时估计相应的3D姿态和3D到2D的成像参数,而无需3D姿态的真实数据。与大多数仅针对单个舞者的 方法不同,我们的跟踪方法可以处理多个舞者,并且在遮挡情况下也能有效工作。从估计的3D姿态序列中,HDVR提取身体部位的运动,并由此识别出舞蹈类型。所得到的分层舞蹈表示对专家来说是可解释的。为了克服噪声和帧间对应关系的不确定性,我们在时间和空间上强制执行运动平滑性和光度连续性。我们使用LSTM网络从提取的3D运动子序列中识别舞蹈类型。在实验中,我们确定了16个身体部位的154种运动类型,并构建了一个新的伊利诺伊大学舞蹈(University of Illinois Dance, UID)数据集,包含9种类型的1143段视频片段,总时长为30小时,并标注了运动和类型标签。实验结果表明,我们的算法优于最先进的3D姿态估计方法,这也提升了我们的舞蹈识别性能。

无监督3D姿态估计在分层舞蹈视频识别中的应用 | 最新论文 | HyperAI超神经