Réseau de convolution graphique séparable espace-temps pour la prédiction de posture

La prévision de la posture humaine est une tâche complexe de modélisation de séquences de données structurées, qui suscite un intérêt croissant, notamment en raison de ses nombreuses applications potentielles. Les recherches ont principalement abordé la dimension temporelle sous la forme de séries temporelles et les interactions entre les articulations du corps humain à l’aide d’un arbre cinématique ou d’un graphe. Cette approche a permis de découpler ces deux aspects et de tirer parti des progrès réalisés dans les domaines correspondants, mais elle a également limité la compréhension des dynamiques spatio-temporelles complexes des articulations dans la posture humaine. Dans cet article, nous proposons un nouveau réseau de convolution de graphe séparable espace-temps (STS-GCN) pour la prévision de posture. Pour la première fois, le STS-GCN modélise les dynamiques de la posture humaine uniquement à l’aide d’un réseau de convolution de graphe (GCN), intégrant à la fois l’évolution temporelle et les interactions spatiales entre articulations dans un cadre graphique unifié, ce qui permet un échange d’informations entre les corrélations temporelles et spatiales. Parallèlement, le STS-GCN est le premier GCN séparable espace-temps : la connectivité du graphe espace-temps est factorisée en matrices d’affinité spatiale et temporelle, ce qui limite délibérément l’interaction entre espace et temps, tout en permettant des corrélations complètes entre articulations (joint-joint) et entre instants (time-time). Ces deux matrices d’affinité sont apprises de manière end-to-end, ce qui conduit à des connexions s’écartant considérablement de l’arbre cinématique standard et de la séquence temporelle linéaire classique. Une évaluation expérimentale sur trois benchmarks récents, complexes et à grande échelle — Human3.6M [Ionescu et al., TPAMI’14], AMASS [Mahmood et al., ICCV’19] et 3DPW [Von Marcard et al., ECCV’18] — montre que le STS-GCN dépasse l’état de l’art, surpassant la technique actuellement la plus performante [Mao et al., ECCV’20] de plus de 32 % en moyenne sur les prédictions à long terme les plus difficiles, tout en nécessitant seulement 1,7 % de ses paramètres. Nous expliquons qualitativement les résultats et illustrons les interactions du graphe à travers les connexions apprises factorisées entre articulations (joint-joint) et entre instants (time-time). Notre code source est disponible à l’adresse suivante : https://github.com/FraLuca/STSGCN