17 天前

15个关键点足矣

Michael Snower, Asim Kadav, Farley Lai, Hans Peter Graf
15个关键点足矣
摘要

姿态跟踪是一项关键任务,旨在识别唯一的人体姿态实例,并在视频的不同帧之间实现姿态的时序匹配。然而,现有的姿态跟踪方法难以准确建模时序关系,且计算开销较大,通常需离线完成轨迹计算。本文提出一种高效的多人姿态跟踪方法——KeyTrack,该方法仅依赖关键点信息,无需使用任何RGB图像或光流信息,即可实现实时人体关键点跟踪。KeyTrack采用我们提出的姿态蕴含(Pose Entailment)机制进行关键点追踪:首先,从视频的不同帧中采样一对姿态估计,并将其编码为序列;随后,基于Transformer的网络对这对姿态进行二分类,判断其中一个姿态是否在时间上跟随另一个。此外,我们提出一种新颖的、无需参数的关节点精炼技术,用于提升自上而下姿态估计的精度,从而优化姿态蕴含步骤中所使用的关键点估计。在PoseTrack'17与PoseTrack'18基准测试上,KeyTrack取得了当前最优的性能表现,同时仅需其他主流方法所需计算资源的一小部分即可完成跟踪信息的生成。