
摘要
这项工作介绍了一种用于人体姿态估计任务的新颖卷积网络架构。该架构在所有尺度上处理特征,并将其整合以最好地捕捉与身体相关的各种空间关系。我们展示了如何通过结合中间监督(intermediate supervision)进行反复的自下而上、自上而下的处理,对于提高网络性能至关重要。根据连续的池化和上采样步骤来生成最终预测结果的特点,我们将这种架构称为“堆叠沙漏”网络(stacked hourglass network)。在FLIC和MPII基准测试中,该方法取得了最先进的结果,超越了所有近期的方法。