
摘要
在单目RGB相机的3D人体姿态估计方面已经取得了显著进展。然而,只有少数研究探讨了3D多人情况。本文尝试通过引入一种新的监督形式——分层多人序关系(Hierarchical Multi-person Ordinal Relations, HMOR)来解决自上而下方法缺乏全局视角的问题。HMOR以分层的方式编码深度和角度的序关系,捕捉身体部位和关节级别的语义信息,同时保持全局一致性。在我们的方法中,设计了一个集成的自上而下模型,在学习过程中利用这些序关系。该集成模型同时估计人体边界框、人体深度和根节点相对的3D姿态,并采用从粗到细的架构来提高深度估计的准确性。所提出的方法在公开可用的多人3D姿态数据集上的表现显著优于现有最先进方法。除了性能优越外,我们的方法还具有较低的计算复杂度和较少的模型参数。