
人体姿态预测是一项复杂的结构化序列建模任务,近年来受到越来越多关注,这主要归因于其在众多领域中具有广泛的应用潜力。现有研究主要从时间维度将其建模为时间序列,并通过运动学树或图结构来描述人体关节间的相互作用。这种处理方式虽将时空特性解耦,从而借助相关领域的进展取得了一定成果,但也限制了对人类姿态复杂时空动态结构的深入理解。本文提出一种新型的时空可分图卷积网络(Space-Time-Separable Graph Convolutional Network, STS-GCN),用于姿态预测任务。这是首个仅通过图卷积网络(GCN)统一建模人体姿态动态的框架,能够在单一图结构中同时捕捉时间演化过程与空间关节间交互关系,从而实现运动信息与空间相关性之间的有效交互。同时,STS-GCN是首个实现时空可分的图卷积网络:其时空图连接性被分解为空间相似性矩阵与时间相似性矩阵,该设计在限制时空交互的同时,充分保留了关节-关节之间以及时间-时间之间的全部相关性。两个相似性矩阵均采用端到端方式联合学习,所得连接结构显著偏离传统运动学树结构和线性时间序列假设。在三个近期且大规模的复杂基准数据集——Human3.6M [Ionescu et al. TPAMI'14]、AMASS [Mahmood et al. ICCV'19] 和 3DPW [Von Marcard et al. ECCV'18] 上的实验评估表明,STS-GCN在性能上超越现有最先进方法,在最具挑战性的长期预测任务中,平均性能提升超过32%,而模型参数量仅为当前最优方法 [Mao et al. ECCV'20] 的1.7%。本文通过可视化分解后的关节-关节和时间-时间学习得到的图连接关系,对模型性能提升进行了定性分析与解释。项目源代码已开源,地址为:https://github.com/FraLuca/STSGCN