KTPFormer : Amélioration de la cinématique et des connaissances antérieures sur la trajectoire pour l'estimation de la pose humaine 3D

Ce document présente un nouveau modèle de transformateur amélioré par des connaissances préalables en cinématique et trajectoire, appelé Kinematics and Trajectory Prior Knowledge-Enhanced Transformer (KTPFormer). Ce modèle surmonte la faiblesse des méthodes existantes basées sur les transformateurs pour l'estimation de la posture humaine en 3D, où la dérivation des vecteurs Q, K, V dans leurs mécanismes d'auto-attention repose entièrement sur une simple projection linéaire. Nous proposons deux modules d'attention préalable, à savoir le module d'Attention Cinématique Préalable (Kinematics Prior Attention, KPA) et le module d'Attention Trajectoire Préalable (Trajectory Prior Attention, TPA), afin d'exploiter la structure anatomique connue du corps humain et les informations de trajectoire de mouvement pour faciliter l'apprentissage efficace des dépendances et des caractéristiques globales dans l'auto-attention multi-têtes. Le module KPA modélise les relations cinématiques du corps humain en construisant une topologie cinématique, tandis que le module TPA établit une topologie de trajectoire pour apprendre les informations de la trajectoire de mouvement articulaire entre les images. En générant des vecteurs Q, K, V enrichis par des connaissances préalables, ces deux modules permettent au KTPFormer de modéliser simultanément les corrélations spatiales et temporelles. Des expériences approfondies sur trois bancs d'essai (Human3.6M, MPI-INF-3DHP et HumanEva) montrent que le KTPFormer obtient des performances supérieures par rapport aux méthodes de pointe actuelles. Plus important encore, nos modules KPA et TPA ont été conçus avec une architecture légère et modulaire qui peut être intégrée à divers réseaux basés sur les transformateurs (par exemple, basés sur la diffusion) pour améliorer les performances avec une augmentation très minime du coût computationnel. Le code est disponible à l'adresse suivante : https://github.com/JihuaPeng/KTPFormer.