Transformateur à fusion multi-vues et temporelle adaptative pour l'estimation de la posture 3D humaine

Cet article propose un cadre unifié, nommé Transformer de fusion multi-vues et temporelle (MTF-Transformer), permettant de traiter de manière adaptative un nombre variable de vues et une longueur de vidéo sans calibration des caméras dans l’estimation 3D de la posture humaine (HPE). Le modèle se compose de trois composants : un Extracteur de caractéristiques, un Transformer de fusion multi-vues (MFT) et un Transformer de fusion temporelle (TFT). L’Extracteur de caractéristiques est chargé d’estimer la posture 2D à partir de chaque image, puis de fusionner les prédictions selon leur confiance. Il fournit ainsi des embeddings de caractéristiques centrés sur la posture, ce qui rend les modules ultérieurs plus légers sur le plan computationnel. Le MFT fusionne les caractéristiques issues d’un nombre variable de vues grâce à un nouveau bloc d’attention relative. Il mesure de manière adaptative les relations relatives implicites entre chaque paire de vues, permettant ainsi de reconstruire des caractéristiques plus informatives. Le TFT agrège les caractéristiques de toute la séquence et prédit la posture 3D via un modèle Transformer. Il traite de manière adaptative des vidéos de longueur arbitraire et exploite pleinement l’information temporelle. L’intégration des Transformers permet à notre modèle d’apprendre mieux la géométrie spatiale tout en préservant une robustesse élevée dans divers scénarios d’application. Nous présentons des résultats quantitatifs et qualitatifs sur les bases Human3.6M, TotalCapture et KTH Multiview Football II. En comparaison avec les méthodes de pointe nécessitant des paramètres de caméra, le MTF-Transformer obtient des performances compétitives et se généralise efficacement à des captures dynamiques impliquant un nombre arbitraire de vues inédites.