8 个月前

摘要

在一张包含多个人物的图像中，我们的目标是直接回归所有人物的姿态、形状以及他们之间的相对深度。然而，如果不了解人物的高度，从图像中推断其深度本质上是模糊的。这在场景中包含大小差异显著的人物时尤为突出，例如从婴儿到成人。为了解决这一问题，我们需要采取几个步骤。首先，我们开发了一种新颖的方法来推断单张图像中多个人物的姿态和深度。以往的工作通过在图像平面上进行推理来估计多个人物，而我们的方法称为BEV（Bird's-Eye-View），则增加了一个虚拟的鸟瞰图表示，以显式地考虑深度。BEV同时对图像中的身体中心和深度进行推理，并通过结合这些信息来估计三维身体位置。与先前的工作不同，BEV是一种单次推理方法，并且端到端可微分。其次，身高随年龄变化，因此在不估计图像中人物年龄的情况下无法解决深度问题。为此，我们利用一个三维人体模型空间，使BEV能够从婴儿到成人推断出各种体型。第三，为了训练BEV，我们需要一个新的数据集。具体来说，我们创建了一个“相对人类”（Relative Human, RH）数据集，该数据集包括年龄标签和图像中人物之间的相对深度关系。我们在RH和AGORA数据集上进行了大量实验，结果证明了该模型及其训练方案的有效性。BEV在深度推理、儿童体型估计以及遮挡鲁棒性方面均优于现有方法。代码和数据集已公开发布供研究使用。

查看代码