
摘要
动作识别和人体姿态估计密切相关,但在文献中通常被作为独立的任务来处理。在本研究中,我们提出了一种多任务框架,用于从静态图像中联合进行2D和3D姿态估计以及从视频序列中进行人类动作识别。我们展示了单一架构可以高效地解决这两个问题,并且仍然能够取得最先进的结果。此外,我们证明了端到端的优化比分离学习显著提高了准确性。所提出的架构可以无缝地同时使用来自不同类别的数据进行训练。我们在四个数据集(MPII、Human3.6M、Penn Action和NTU)上的实验结果表明,该方法在目标任务上具有有效性。