11 天前

Light3DPose:基于多视角的实时多人3D姿态估计

Alessio Elmi, Davide Mazzini, Pietro Tortella
Light3DPose:基于多视角的实时多人3D姿态估计
摘要

我们提出一种基于少量标定相机视角实现多人三维姿态估计的方法。该方法的架构利用近期提出的“反投影层”(unprojection layer),将二维姿态估计主干网络提取的特征图聚合为对三维场景的全面表征。随后,该中间表示通过一个全卷积体素网络与解码阶段进行进一步处理,从而以亚体素精度提取三维骨骼结构。在CMU Panoptic数据集上,本方法在仅使用少量未见视角的情况下,取得了当前最优的平均关节点位置误差(MPJPE)表现;即使仅输入单个视角,也能获得具有竞争力的结果。此外,我们通过在公开可用的Shelf数据集上进行测试,评估了该模型的迁移学习能力,结果表明其在该数据集上同样表现出良好的性能指标。所提出的算法具有天然的高效性:作为一种纯自底向上的方法,其计算复杂度与场景中人数无关。尽管二维部分的计算开销随输入视角数量呈线性增长,但整体架构可采用极为轻量级的二维主干网络,其速度远超体素网络的对应部分(快数个数量级),从而实现极快的推理速度。系统可在单张1080Ti GPU上实现高达6 FPS的运行速率,支持同时处理最多10个相机视角。

Light3DPose:基于多视角的实时多人3D姿态估计 | 最新论文 | HyperAI超神经