2 个月前

基于3D事件点云的人体姿态高效估计

Jiaan Chen; Hao Shi; Yaozu Ye; Kailun Yang; Lei Sun; Kaiwei Wang

摘要

基于RGB图像的人体姿态估计（HPE）得益于深度学习的发展而迅速进步。然而，基于事件的人体姿态估计尚未得到充分研究，在极端场景和对效率要求较高的条件下仍具有巨大的应用潜力。在本文中，我们首次直接从3D事件点云中估计2D人体姿态。我们提出了一种新的事件表示方法——光栅化事件点云，该方法将同一位置的小时间片内的事件聚合在一起。它保留了来自多个统计线索的3D特征，并显著降低了内存消耗和计算复杂度，经我们的工作证明其高效性。随后，我们将光栅化事件点云作为输入，结合三种不同的骨干网络（PointNet、DGCNN 和 Point Transformer），并通过两个线性层解码器预测人体关键点的位置。我们发现，基于我们的方法，PointNet 在速度上表现出色且结果令人满意；而 Point Transformer 则达到了更高的精度，甚至接近之前的基于事件帧的方法。一系列全面的结果表明，我们提出的方法在基于事件驱动的人体姿态估计中对这三种3D骨干模型均具有一致的有效性。基于PointNet并使用2048个点作为输入，在DHP19数据集上的MPJPE3D指标达到82.46毫米，而在NVIDIA Jetson Xavier NX边缘计算平台上仅需12.29毫秒的延迟，非常适合使用事件相机进行实时检测。代码已发布在 https://github.com/MasterHow/EventPointPose。