6 个月前

摘要

我们提出一种新颖的自顶向下方法，用于解决视频中多人姿态估计与跟踪问题。与现有自顶向下方法不同，本方法不受人体检测器性能的限制，能够预测未被准确定位的人体实例的姿态。这一能力的实现得益于对已知人体位置在时间维度上的前后传播，并在这些区域中搜索对应姿态。本方法由三个核心组件构成：(i) 片段跟踪网络（Clip Tracking Network），可在短时视频片段上同步完成人体关节检测与跟踪；(ii) 视频跟踪流水线（Video Tracking Pipeline），将片段跟踪网络生成的固定长度轨迹片段合并为任意长度的完整轨迹；(iii) 时空融合模块（Spatial-Temporal Merging Procedure），基于空间与时间平滑项对关节位置进行精细化优化。得益于片段跟踪网络的高精度以及融合策略的有效性，本方法能够生成极为准确的关节预测结果，并有效纠正复杂场景下常见的错误，例如多人严重重叠的情况。在PoseTrack 2017与2018数据集上，本方法在关节检测与跟踪任务上均取得了当前最优（state-of-the-art）的性能表现，显著优于所有现有的自顶向下与自底向上方法。

源 PDF