
摘要
基于RGB图像的人体姿态估计(HPE)得益于深度学习的发展而迅速进步。然而,基于事件的人体姿态估计尚未得到充分研究,在极端场景和对效率要求较高的条件下仍具有巨大的应用潜力。在本文中,我们首次直接从3D事件点云中估计2D人体姿态。我们提出了一种新的事件表示方法——光栅化事件点云,该方法将同一位置的小时间片内的事件聚合在一起。它保留了来自多个统计线索的3D特征,并显著降低了内存消耗和计算复杂度,经我们的工作证明其高效性。随后,我们将光栅化事件点云作为输入,结合三种不同的骨干网络(PointNet、DGCNN 和 Point Transformer),并通过两个线性层解码器预测人体关键点的位置。我们发现,基于我们的方法,PointNet 在速度上表现出色且结果令人满意;而 Point Transformer 则达到了更高的精度,甚至接近之前的基于事件帧的方法。一系列全面的结果表明,我们提出的方法在基于事件驱动的人体姿态估计中对这三种3D骨干模型均具有一致的有效性。基于PointNet并使用2048个点作为输入,在DHP19数据集上的MPJPE3D指标达到82.46毫米,而在NVIDIA Jetson Xavier NX边缘计算平台上仅需12.29毫秒的延迟,非常适合使用事件相机进行实时检测。代码已发布在 https://github.com/MasterHow/EventPointPose。