
摘要
尽管基于体素(voxel)的方法在多摄像头场景下的多人三维姿态估计任务中取得了令人瞩目的成果,但其仍面临计算负担沉重的问题,尤其是在大场景下表现尤为明显。为此,本文提出Faster VoxelPose,通过将特征体投影至三个二维坐标平面,并分别从这些平面中估计X、Y、Z坐标,以应对这一挑战。具体而言,首先利用投影至xy平面的体素特征估计二维边界框,结合沿z轴方向的特征估计高度,从而定位每个人体的三维边界框。随后,针对每个被定位的人体,分别从三个坐标平面中估计其部分关键点坐标,再将这些坐标融合以获得最终的三维姿态。该方法无需依赖昂贵的3D卷积神经网络(3D-CNN),在保持与当前最先进方法相当精度的同时,将原VoxelPose的推理速度提升了十倍,充分证明了其在实时应用中的巨大潜力。