
摘要
本文探讨了卷积神经网络在处理一项对人类而言较为容易的任务——从不同角度感知人体三维姿态——方面的能力。然而,在我们的方法中,仅限于使用单目视觉系统。为此,我们在RGB视频上应用了卷积神经网络方法,并将其扩展到三维卷积。具体做法是将视频中的时间维度编码为卷积空间的第三维,并直接回归到三维坐标空间中的人体关节位置。本研究展示了该网络在选定的Human3.6M数据集上达到最先进水平的能力,从而证明了通过在卷积操作中增加一个维度来成功表示时间数据的可能性。

本文探讨了卷积神经网络在处理一项对人类而言较为容易的任务——从不同角度感知人体三维姿态——方面的能力。然而,在我们的方法中,仅限于使用单目视觉系统。为此,我们在RGB视频上应用了卷积神经网络方法,并将其扩展到三维卷积。具体做法是将视频中的时间维度编码为卷积空间的第三维,并直接回归到三维坐标空间中的人体关节位置。本研究展示了该网络在选定的Human3.6M数据集上达到最先进水平的能力,从而证明了通过在卷积操作中增加一个维度来成功表示时间数据的可能性。