18 天前

全捕捉:融合视频与惯性传感器的三维人体姿态估计

{and John Collomosse, Matthew Trumble, Charles Malleson, Adrian Hilton, Andrew Gilbert}
全捕捉:融合视频与惯性传感器的三维人体姿态估计
摘要

我们提出一种算法,用于融合多视角视频(Multi-Viewpoint Video, MVV)与惯性测量单元(Inertial Measurement Unit, IMU)传感器数据,以精确估计三维人体姿态。该算法采用三维卷积神经网络(3-D Convolutional Neural Network),从由MVV帧生成的体素化概率视觉外壳数据(Probabilistic Visual Hull, PVH)中学习姿态嵌入表示。我们将该模型嵌入到一个双流网络架构中,该架构融合了来自MVV的姿态嵌入以及基于IMU数据的前向运动学解算结果。在两路特征融合之前,分别在每条流中引入了时间建模模块(LSTM),以捕捉时序动态特性。实验表明,通过融合这两种互补的数据源进行混合姿态推断,能够有效消除单一传感器模态中的歧义性,显著提升姿态估计的准确性,优于以往方法。本工作的另一重要贡献是构建了一个新的混合式MVV数据集——TotalCapture,该数据集包含视频序列、IMU数据以及由商用动作捕捉系统生成的骨骼关节真值标注。该数据集已公开发布,可在线访问:http://cvssp.org/data/totalcapture/