2 个月前
从稀疏标注的视频中学习时间姿态估计
Gedas Bertasius; Christoph Feichtenhofer; Du Tran; Jianbo Shi; Lorenzo Torresani

摘要
现代多人姿态估计方法在视频中需要大量的密集注释。然而,为视频中的每一帧进行标注既费时又耗力。为了减少对密集注释的需求,我们提出了一种PoseWarper网络,该网络利用带有稀疏注释(每k帧)的训练视频来学习执行密集的时间姿态传播和估计。给定一对视频帧——一个已标注的帧A和一个未标注的帧B——我们通过可变形卷积隐式地学习A和B之间的姿态扭曲,从而训练模型使用来自帧B的特征预测帧A中的人体姿态。我们展示了所训练的PoseWarper可以应用于多个场景。首先,在推理阶段,我们可以反向应用网络,将手动标注帧的姿态信息传播到未标注帧。这使得仅需少量手动标注的帧即可生成整个视频的姿态注释成为可能。与基于光流的现代标签传播方法相比,我们的扭曲机制参数量更少(6M vs 39M),且精度更高(88.7% mAP vs 83.8% mAP)。此外,我们还证明了通过在扩展的数据集上训练姿态估计器可以提高其准确性,该数据集是在原始手动标签基础上添加了我们传播的姿态信息。最后,我们在推理过程中可以使用PoseWarper从相邻帧聚合时间姿态信息。这使我们的系统在PoseTrack2017和PoseTrack2018数据集上实现了最先进的姿态检测结果。代码已发布在:https://github.com/facebookresearch/PoseWarper。关键词:多人姿态估计、密集注释、稀疏注释、可变形卷积、时间姿态传播、光流、mAP(mean Average Precision)、PoseTrack2017数据集、PoseTrack2018数据集