EgoPoseFormer : Une base de référence simple pour l'estimation stéréoscopique de la pose 3D égocentrique

Nous présentons EgoPoseFormer, un modèle basé sur les transformers simple mais efficace pour l'estimation de la posture humaine égocentrique stéréoscopique. Le principal défi dans l'estimation de la posture égocentrique est de surmonter l'invisibilité des articulations, qui est causée par l'auto-occultation ou un champ de vision (FOV) limité des caméras portées à la tête. Notre approche répond à ce défi en intégrant un paradigme d'estimation de la posture en deux étapes : dans la première étape, notre modèle utilise les informations globales pour estimer la position grossière de chaque articulation ; puis, dans la deuxième étape, il emploie un transformer de style DETR pour affiner ces positions en exploitant des caractéristiques visuelles stéréoscopiques fines.De plus, nous introduisons une opération d'Attention Stéréoscopique Déformable afin que notre transformer puisse traiter efficacement les caractéristiques multi-vues, ce qui lui permet de localiser précisément chaque articulation dans le monde 3D. Nous évaluons notre méthode sur le jeu de données stéréoscopique UnrealEgo et montrons qu'elle dépasse largement les approches précédentes tout en étant calculatoirement efficace : elle améliore le MPJPE (Mean Per Joint Position Error) de 27,4 mm (45 % d'amélioration) avec seulement 7,9 % des paramètres du modèle et 13,1 % des FLOPs par rapport à l'état de l'art. De manière surprenante, avec des paramètres d'entraînement appropriés, nous constatons que même notre réseau propositionnel de posture au premier stade peut atteindre des performances supérieures à celles des méthodes antérieures.Nous montrons également que notre méthode peut être étendue sans heurts aux configurations monoculaires, atteignant ainsi les meilleures performances actuelles sur le jeu de données SceneEgo : elle améliore le MPJPE de 25,5 mm (21 % d'amélioration) par rapport à la meilleure méthode existante avec seulement 60,7 % des paramètres du modèle et 36,4 % des FLOPs. Le code source est disponible à l'adresse suivante :https://github.com/ChenhongyiYang/egoposeformer .