6 个月前

摘要

在时间序列中进行三维人体姿态与形状估计对于理解人类行为具有重要意义。尽管近年来单帧图像或视频中的人体姿态估计取得了显著进展，但针对实时流媒体视频的人体运动估计仍是一个较少被关注的研究领域，这主要因其对实时输出和时间一致性的特殊要求。为解决这一问题，本文提出了一种时序嵌入的三维人体姿态与形状估计方法（TePose），以提升实时流媒体视频中姿态估计的准确性与时间一致性。TePose利用历史帧的预测结果作为桥梁，将误差信息反馈至当前帧，从而实现更优的估计，并学习历史数据帧与预测结果之间的对应关系。为此，我们设计了一种多尺度时空图卷积网络作为对抗训练中的运动判别器，该方法仅需使用未标注三维信息的数据集即可完成训练。此外，我们提出了一种序列化数据加载策略，以满足实时流媒体处理中端到端的数据处理需求。通过大量实验，我们验证了所提各模块的有效性。实验结果表明，TePose在多个广泛使用的人体姿态估计基准上均取得了当前最先进的性能。

源 PDF