
摘要
深度卷积神经网络(ConvNets)已被证明在从单张图像中进行人体姿态估计的任务上非常有效。然而,在基于视频的情况下,存在一些具有挑战性的问题,如自遮挡、运动模糊以及训练数据集中很少或没有示例的不常见姿势。时间信息可以提供关于身体关节位置的额外线索,并有助于缓解这些问题。本文提出了一种用于在无约束视频中估计一系列人体姿态的深度结构模型。该模型可以高效地以端到端的方式进行训练,并能够同时表示身体关节的外观及其时空关系。有关人体的知识被明确地融入网络中,为骨骼结构提供了有效的先验知识,并强制执行时间一致性。所提出的端到端架构在两个广泛使用的基准数据集(Penn Action 数据集和 JHMDB 数据集)上进行了评估,用于基于视频的人体姿态估计。我们的方法显著优于现有的最先进方法。