13 天前

基于遮挡感知的网络用于视频中的3D人体姿态估计

{ Robby T. Tan, Wending Yan, Bo Wang, Bo Yang, Yu Cheng}
基于遮挡感知的网络用于视频中的3D人体姿态估计
摘要

遮挡是单目视频中3D人体姿态估计面临的关键挑战。为应对这一问题,本文提出一种面向遮挡的深度学习框架。该框架通过利用关键点的2D置信度热图(confidence heatmaps)以及光流一致性约束,有效过滤掉被遮挡关键点的不可靠估计。当发生遮挡时,系统仅获得不完整的2D关键点信息,并将其输入到2D与3D时序卷积网络(2D和3D TCNs)中,通过施加时序平滑性约束,重建出完整的3D姿态。与使用完整但可能错误的2D关键点不同,本方法采用不完整的2D关键点作为输入,使网络对被遮挡关键点的误差估计具有更强的鲁棒性。训练该面向遮挡的3D TCN需要成对的3D姿态与带有遮挡标签的2D姿态数据。由于目前尚无此类标注数据集,本文提出一种“圆柱体人体模型”(Cylinder Man Model),用于近似人体各部位在三维空间中的占据情况。通过从不同视角将该模型投影至二维平面,可生成并标注出被遮挡的关键点,从而获得大量可用于训练的数据。此外,该模型还被用于构建姿态正则化约束,促使网络倾向于将不可靠关键点的2D估计判定为被遮挡状态。实验结果表明,本方法在Human 3.6M和HumanEva-I两个标准数据集上均优于现有最先进方法。

基于遮挡感知的网络用于视频中的3D人体姿态估计 | 最新论文 | HyperAI超神经