17 天前

跨视角追踪用于多人体3D姿态估计,速度超过100 FPS

Long Chen, Haizhou Ai, Rui Chen, Zijie Zhuang, Shuang Liu
跨视角追踪用于多人体3D姿态估计,速度超过100 FPS
摘要

在计算机视觉领域,实时估计多人的三维姿态是一项经典但依然极具挑战性的任务。其主要难点在于不同视角间二维姿态的关联存在歧义,且当多个人出现在多个视角中时,状态空间极为庞大。本文提出一种新颖的方法,用于从多个已标定相机视角中实现多人三维姿态估计。该方法以不同相机坐标系下的二维姿态作为输入,目标是精确恢复全局坐标系下的三维姿态。与以往方法在每一帧中从零开始对所有视角间的二维姿态进行配对不同,本文充分利用视频序列中的时序一致性,直接在三维空间中将二维输入与三维姿态进行匹配。具体而言,我们提出保留每个人对应的三维姿态,并通过跨视角多人跟踪机制对其进行迭代更新。这种新范式显著提升了估计的准确性和计算效率,我们在多个广泛使用的公开数据集上进行了验证。为进一步验证方法的可扩展性,我们构建了一个新的大规模多人数据集,包含12至28个相机视角。在不依赖任何复杂后处理或额外优化技巧的情况下,我们的方法在12个相机场景下达到154 FPS,在28个相机场景下仍保持34 FPS的实时性能,充分展示了其在大规模真实应用场景中的处理能力。所提出的基准数据集已开源,地址为:https://github.com/longcw/crossview_3d_pose_tracking。