17 天前
基于单目图像与稀疏IMU信号融合的实时人体动作捕捉
Shaohua Pan, Qi Ma, Xinyu Yi, Weifeng Hu, Xiong Wang, Xingkang Zhou, Jijunnan Li, Feng Xu

摘要
无论是RGB图像还是惯性信号,均已被用于动作捕捉(motion capture, mocap)任务,但将二者相结合是一个新兴且富有吸引力的研究方向。我们相信,这种融合具有互补性,能够有效克服单一模态输入所面临的固有挑战:对于视觉动作捕捉而言,包括遮挡、极端光照/纹理变化以及视角外等问题;而对于惯性动作捕捉,则主要面临全局漂移(global drift)的困扰。为此,我们提出一种方法,实现单目图像与稀疏惯性测量单元(IMU)信号的实时融合,以完成人体动作捕捉。本方法引入了一种双坐标系策略,旨在从不同目标出发,充分挖掘IMU信号的潜力。具体而言,一方面,一个分支将IMU信号转换至相机坐标系,与图像信息进行融合;另一方面,另一个分支则在人体根节点坐标系(body root coordinate system)中直接学习IMU信号,以更准确地估计身体姿态。此外,我们为两个分支均设计了隐状态反馈机制,以在极端输入条件下有效弥补各自存在的缺陷。因此,该方法能够灵活地在两种信号之间切换,或根据具体场景动态融合,从而实现鲁棒性更强的动作捕捉。两个分支之间可相互协作,在不同环境下协同提升捕捉效果。定量与定性实验结果表明,通过精心设计的融合机制,本方法在全局朝向与局部姿态估计方面,显著优于当前最先进的纯视觉方法、纯IMU方法以及现有融合方法。相关代码已开源,供学术研究使用,详情请访问:https://shaohua-pan.github.io/robustcap-page/。