
摘要
人体姿态估计在许多计算机视觉任务中发挥着重要作用,几十年来一直受到广泛关注。然而,由于姿态、光照、遮挡和低分辨率等因素引起的复杂外观变化,这一问题仍然具有挑战性。利用深度卷积神经网络提供的高层次语义信息是一种有效的方法,可以提高人体姿态估计的准确性。本文提出了一种新颖的级联特征聚合(Cascade Feature Aggregation, CFA)方法,该方法通过级联多个沙漏网络实现鲁棒的人体姿态估计。来自不同阶段的特征被聚合以获取丰富的上下文信息,从而增强对姿态、部分遮挡和低分辨率的鲁棒性。此外,不同阶段的结果被融合以进一步提高定位精度。在MPII数据集和LIP数据集上的广泛实验表明,所提出的CFA方法优于现有最先进方法,并在MPII基准测试中取得了最佳性能。