9 天前

UniPose:单张图像与视频中的统一人体姿态估计

Bruno Artacho, Andreas Savakis
UniPose:单张图像与视频中的统一人体姿态估计
摘要

我们提出UniPose,一种基于“瀑布式”空洞空间池化(Waterfall Atrous Spatial Pooling)架构的统一人体姿态估计框架,在多个姿态估计指标上均取得了当前最优性能。现有基于标准卷积神经网络(CNN)架构的姿态估计方法在关键点定位上严重依赖统计后处理或预设的锚定姿态。相比之下,UniPose通过在单阶段内联合实现上下文分割与关键点定位,无需依赖统计后处理方法,即可实现高精度的人体姿态估计。UniPose中的“瀑布模块”(Waterfall module)充分利用级联架构中逐步过滤的高效性,同时保持与空间金字塔结构相当的多尺度感受野。此外,我们将该方法扩展至UniPose-LSTM,用于多帧视频序列的处理,在视频时序姿态估计任务中同样达到了当前最优水平。在多个数据集上的实验结果表明,采用ResNet主干网络与瀑布模块的UniPose,是一种鲁棒且高效的姿态估计架构,在单人姿态检测任务中,无论是单帧图像还是视频序列,均取得了当前最优的性能表现。