7 个月前

摘要

使用深度神经网络进行人体姿态估计的目标是将具有较大变化的输入图像映射到多个身体关键点，这些关键点必须满足由人体模型施加的一系列几何约束和相互依赖关系。这是一个在非常高维特征空间中极具挑战性的非线性流形学习过程。我们认为，深度神经网络本质上是一个代数计算系统，它并不是捕捉高度复杂的人类知识（例如人体姿态中关键点之间高度耦合的几何特征和相互依赖关系）的最佳方法。在这项工作中，我们提出探索如何有效地表示并注入外部知识到深度神经网络中，以指导其训练过程，通过学习的投影来施加适当的先验条件。具体而言，我们利用堆叠沙漏设计和Inception-ResNet模块构建了一个分形网络，将人体姿态图像回归为热图，而无需显式的图形建模。我们将外部知识编码为视觉特征，这些特征能够描述人体模型的约束条件并评估中间网络输出的适应度。然后，我们使用一个通过辅助代价函数学习得到的投影矩阵将这些外部特征注入神经网络中。我们在两个广泛使用的基准数据集上评估了所提出的Inception-ResNet模块的有效性和知识投影在引导学习中的优势。我们的方法在这两个数据集上均达到了最先进的性能。

源 PDF