
摘要
单目三维人体姿态估计在大规模真实姿态捕捉数据集可用的推动下,近年来受到越来越多关注。然而,现有训练数据的多样性仍然有限,且现有方法在脱离其训练数据集后泛化能力的程度尚不明确。本文针对五种典型人体姿态数据集的组合,系统性地研究了各数据集中存在的多样性差异与偏差,并分析其对跨数据集泛化性能的影响。我们特别关注人体中心坐标系下相机视角分布的系统性差异。基于这一观察,我们提出在传统姿态估计任务之外,增加一个辅助任务——预测相机视角。实验结果表明,同时学习预测视角与姿态的模型,在跨数据集泛化能力方面表现出显著提升。