6 个月前

摘要

在复杂场景下的多帧人体姿态估计是一项极具挑战性的任务。尽管当前最先进的关节检测模型在静态图像上已取得显著成果，但当将其应用于视频序列时，性能往往显著下降。现有方法普遍存在难以处理运动模糊、视频失焦或姿态遮挡等问题，其根源在于无法有效捕捉视频帧之间的时序依赖关系。另一方面，直接采用传统的循环神经网络在建模空间上下文方面也面临实际困难，尤其是在处理姿态遮挡问题时表现不佳。针对上述问题，本文提出了一种新颖的多帧人体姿态估计框架，充分利用视频帧间的丰富时序信息，以提升关键点检测的准确性。该框架包含三个模块化组件：姿态时序融合模块（Pose Temporal Merger）用于编码关键点的时空上下文，生成有效的搜索区域；姿态残差融合模块（Pose Residual Fusion）则在双向方向上计算加权姿态残差；随后，上述结果通过我们提出的姿态校正网络（Pose Correction Network）进行高效的姿态估计优化。所提方法在大规模基准数据集PoseTrack2017和PoseTrack2018的多帧人体姿态估计挑战赛中均取得第一名的成绩。相关代码已公开发布，旨在为后续研究提供启发与支持。

源 PDF