
摘要
我们提出了一种在线方法,能够高效且同时检测并跟踪视频序列中多个人的二维姿态。该方法基于为静态图像设计的部位亲和场(Part Affinity Field, PAF)表示,并提出了一种可以编码和预测时空亲和场(Spatio-Temporal Affinity Fields, STAF)的架构。特别地,我们提出了一种新颖的时间拓扑结构,该结构在肢体之间建立了跨时间的连接,能够一致地处理各种幅度的身体运动。此外,我们将整体方法设计为递归形式,网络可以接收来自前一帧的STAF热图,并估计当前帧的热图。我们的方法仅使用在线推理和跟踪,并且目前是最快的、最准确的自底向上方法,其运行时间不受场景中人数的影响,准确性也不受摄像机输入帧率的影响。在单个GPU上以单尺度运行时,该方法可达到约30帧每秒的速度,在PoseTrack基准测试中取得了非常有竞争力的结果。