TriPose : Une estimation de la pose humaine 3D faiblement supervisée par triangulation à partir de vidéos

L'estimation des poses humaines en 3D à partir de vidéos est un problème complexe. Le manque d'annotations de poses humaines en 3D constitue un obstacle majeur pour l'entraînement supervisé et la généralisation à des jeux de données inédits. Dans ce travail, nous abordons ce problème en proposant un schéma d'entraînement faiblement supervisé qui ne nécessite ni annotations en 3D ni caméras calibrées. La méthode proposée s'appuie sur les informations temporelles et la triangulation. En utilisant des poses en 2D provenant de plusieurs vues comme entrée, nous estimons d'abord les orientations relatives des caméras, puis générons des poses en 3D par triangulation. La triangulation n'est appliquée qu'aux vues avec une forte confiance dans les articulations humaines en 2D. Les poses en 3D générées sont ensuite utilisées pour entraîner un réseau de levage récurrent (RLN) qui estime les poses en 3D à partir des poses en 2D. Nous appliquons également une perte de réprojection multi-vue aux poses en 3D estimées et imposons que les poses en 3D estimées à partir de plusieurs vues soient cohérentes. Ainsi, notre méthode relâche les contraintes pratiques, ne nécessitant que des vidéos multi-vue pour l'entraînement, ce qui la rend pratique pour des scénarios naturels. Lors de l'inférence, le RLN n'a besoin que de vidéos mono-vue. La méthode proposée surpasse les travaux précédents sur deux jeux de données difficiles, Human3.6M et MPI-INF-3DHP. Les codes et les modèles pré-entraînés seront mis à disposition du public.注释:- "Recurrent lifting network (RLN)" 翻译为 "réseau de levage récurrent (RLN)",以保持专业性和信息完整性。- "Human3.6M" 和 "MPI-INF-3DHP" 是数据集名称,直接保留原名。