17 天前
DeepFuse:一种面向多视角图像实时三维人体姿态估计的惯性测量单元感知网络
Fuyang Huang, Ailing Zeng, Minhao Liu, Qiuxia Lai, Qiang Xu

摘要
本文提出了一种两阶段全三维网络结构,命名为 DeepFuse,通过深度融合可穿戴惯性测量单元(IMU)数据与多视角图像,实现对人体三维姿态的精确估计。第一阶段专注于纯视觉姿态估计,为保留多视角输入数据的原始特性,该视觉阶段采用多通道体素(multi-channel volume)作为数据表示形式,并引入三维软最大值(3D soft-argmax)作为激活层。第二阶段为IMU精修阶段,创新性地设计了IMU-骨骼层(IMU-bone layer),在数据层面更早地实现IMU与视觉信息的融合。该方法无需预先给定骨骼模型,即可在TotalCapture数据集上达到28.9 mm的平均关节点误差,在Human3.6M数据集上(按协议1评估)达到13.4 mm的平均关节点误差,显著超越当前最优(SOTA)性能。最后,本文通过实验验证了全三维网络在三维姿态估计任务中的有效性,为后续相关研究提供了有益启示。