HyperAIHyperAI
il y a 2 mois

Génération d'actions humaines consciente de la structure

Yu, Ping ; Zhao, Yang ; Li, Chunyuan ; Yuan, Junsong ; Chen, Changyou
Génération d'actions humaines consciente de la structure
Résumé

La génération d'actions humaines à long terme basées sur des squelettes a toujours été un problème complexe, car de petites déviations dans une seule image peuvent entraîner une séquence d'actions mal formée. La plupart des méthodes existantes s'inspirent de la génération vidéo, traitant naïvement les nœuds/sommets du squelette comme des pixels d'images sans prendre en compte les informations structurales riches entre et au sein des images, ce qui peut conduire à des actions potentiellement déformées. Les réseaux de convolution graphique (GCNs) constituent une approche prometteuse pour exploiter ces informations structurales afin d'apprendre des représentations structurées. Cependant, l'application directe des GCNs pour traiter de telles séquences d'actions continues dans les espaces spatial et temporel est difficile en raison de la taille considérable que peut atteindre le graphe d'action. Pour surmonter cette difficulté, nous proposons une variante des GCNs qui utilise le mécanisme puissant de l'auto-attention pour adapter dynamiquement la sparsification d'un graphe d'action complet dans l'espace temporel. Notre méthode permet ainsi de se concentrer dynamiquement sur les images passées importantes et de construire un graphe éparse pour être utilisé dans le cadre des GCNs, capturant efficacement les informations structurelles dans les séquences d'actions. Des résultats expérimentaux étendus montrent la supériorité de notre méthode sur deux jeux de données standards d'actions humaines par rapport aux méthodes existantes.