
摘要
我们提出 OmniPose,一种单次通过、端到端可训练的框架,在多人姿态估计任务中取得了当前最优的性能。该框架采用一种新颖的瀑布模块(waterfall module),充分利用多尺度特征表示,显著提升了主干特征提取器的效能,且无需后续处理。OmniPose 在多尺度特征提取器中融合了跨尺度上下文信息,并结合高斯热图调制机制,实现了高精度的人体姿态估计。通过 OmniPose 中改进的瀑布模块所获得的多尺度表示,既继承了级联架构中渐进式滤波的高效性,又保持了与空间金字塔结构相当的多尺度感受野。在多个数据集上的实验结果表明,结合改进的 HRNet 主干网络与瀑布模块的 OmniPose,是一种鲁棒且高效的多人姿态估计架构,能够达到当前最优的性能水平。