通过身体驱动的注意力实现单目表情身体回归

为了理解人们如何观察、互动或执行任务,我们需要快速且准确地从RGB图像中捕捉他们的三维身体、面部和手部。现有的大多数方法仅关注身体的某一部分。一些最近的方法通过使用包含面部和手部的三维人体模型,从图像中重建完整的表达性三维人体。然而,这些方法基于优化,因此速度较慢,容易陷入局部最优,并且需要2D关键点作为输入。我们通过引入ExPose(EXpressive POse and Shape rEgression)来解决这些问题,该方法可以直接从RGB图像中回归出SMPL-X格式的身体、面部和手部。这是一个具有挑战性的问题,因为身体的高维度特性和缺乏表达性的训练数据。此外,手部和面部比身体小得多,占据的图像像素非常少。这使得在将身体图像缩小以适应神经网络时,对手部和面部的估计变得困难。我们的主要贡献有三点:首先,我们通过整理一个包含野生环境中SMPL-X拟合的数据集来弥补训练数据的不足;其次,我们发现身体估计可以合理地定位面部和手部。为此,我们在原始图像中引入了由身体驱动的注意力机制,用于提取更高分辨率的手部和面部区域,并将其输入到专门的细化模块中;第三,这些模块利用了现有仅针对面部和手部的数据集中特定部位的知识。与现有的优化方法相比,ExPose能够在计算成本大大降低的情况下更准确地估计表达性三维人体。我们的数据、模型和代码可在https://expose.is.tue.mpg.de 获取用于研究。为了更好地理解人们的观察、互动或执行任务的方式,我们需要能够快速而准确地从RGB图像中捕捉其三维身体、面部和手部信息。目前大多数现有方法仅专注于人体的一部分。少数最新的方法则使用包含面部和手部的三维人体模型从图像中重建完整的表达性三维人体。然而,这些方法基于优化算法,因此速度较慢、容易陷入局部最优解,并且需要2D关键点作为输入。为了解决这些问题,我们提出了ExPose(EXpressive POse and Shape rEgression),该方法可以直接从RGB图像中回归出SMPL-X格式的人体模型中的身体、面部和手部信息。由于人体的高度复杂性和缺乏足够的表达性训练数据,这一问题极具挑战性。此外,手部和面部远小于身体,在图像中占据的像素数量极少。当将整个人体图像缩小以适应神经网络时,对手部和面部的估计尤为困难。我们的主要贡献包括以下三个方面:我们通过整理一个包含野生环境中SMPL-X拟合的数据集来弥补训练数据不足的问题。我们观察到人体估计可以较为准确地定位面部和手部位置。为此,我们在原始图像中引入了一种由人体驱动的注意力机制(body-driven attention),用于提取更高分辨率的手部和面部区域,并将其输入到专门设计的细化模块中。这些细化模块充分利用了现有仅针对面部和手部的数据集中特定部位的知识。与现有的优化方法相比,ExPose能够在显著降低计算成本的前提下更准确地估计表达性三维人体模型。我们的数据集、模型及代码已发布在 https://expose.is.tue.mpg.de ,供研究人员使用。