6 个月前

摘要

尽管近年来在单目视频中估计三维人体姿态方面取得了显著进展，但该任务依然极具挑战性。通常情况下，当目标人物在视频中过小或过大，或其运动速度相对于训练数据的尺度与速度过快或过慢时，现有方法的性能会明显下降。此外，据我们所知，许多现有方法并未在严重遮挡条件下进行专门设计或训练，导致其在处理遮挡情况时表现欠佳。为应对上述问题，本文提出一种具有鲁棒性的时空网络，用于三维人体姿态估计。考虑到视频中人体可能呈现不同尺度且运动速度各异，我们采用多尺度空间特征来预测每一帧中的二维关键点，并结合多步长时间卷积网络（Temporal Convolutional Networks, TCNs）来估计三维关键点。此外，我们设计了一种基于人体结构与肢体运动的时空判别器，用于评估预测姿态是否合理以及运动是否符合人体运动规律。在训练过程中，我们显式地对部分关键点进行掩码处理，以模拟从轻微到严重的各种遮挡场景，从而使网络能够学习到更强的抗遮挡能力。由于三维真实标注数据有限，我们进一步引入二维视频数据，为网络赋予半监督学习能力。在公开数据集上的实验验证了所提方法的有效性，消融实验也充分展示了网络各子模块的贡献与优势。

源 PDF