HyperAIHyperAI
il y a 2 mois

HDNet : Estimation de la profondeur humaine pour la localisation multi-personnes dans l'espace caméra

Lin, Jiahao ; Lee, Gim Hee
HDNet : Estimation de la profondeur humaine pour la localisation multi-personnes dans l'espace caméra
Résumé

Les travaux actuels sur l'estimation de la posture 3D de plusieurs personnes se concentrent principalement sur l'estimation des positions 3D des articulations par rapport à l'articulation racine et négligent les positions absolues de chaque posture. Dans cet article, nous proposons le réseau d'estimation de profondeur humaine (HDNet), un cadre d'apprentissage en bout à bout pour la localisation absolue de l'articulation racine dans l'espace de coordonnées caméra. Notre HDNet estime d'abord la posture humaine 2D à partir des cartes de chaleur des articulations. Ces cartes de chaleur estimées servent de masques d'attention pour extraire les caractéristiques des régions d'image correspondant à la personne cible. Un réseau neuronal graphique (GNN) basé sur le squelette est utilisé pour propager les caractéristiques entre les articulations. Nous formulons le problème de régression de la profondeur cible comme un problème d'estimation d'index bin, qui peut être transformé à partir de la sortie de classification de notre HDNet grâce à une opération soft-argmax. Nous évaluons notre HDNet sur les tâches de localisation de l'articulation racine et d'estimation de la posture 3D relative à la racine en utilisant deux jeux de données基准数据集,即Human3.6M和MuPoTS-3D(请注意,这里“基准数据集”应翻译为“jeux de données de référence”,以符合法语文本的专业性和流畅度)。实验结果表明,我们在多种评估指标下始终优于先前的最先进方法。我们的源代码可在以下网址获取:https://github.com/jiahaoLjh/HumanDepth.为了确保表述正式且符合法语读者的习惯,以下是经过优化的翻译:Les travaux actuels sur l'estimation de la posture 3D multiple se concentrent principalement sur l'estimation des positions 3D relatives des articulations par rapport à l'articulation racine, négligeant ainsi les positions absolues de chaque posture. Dans ce papier, nous présentons le réseau d'estimation de profondeur humaine (HDNet), un cadre complet permettant une localisation absolue précise du joint racine dans l'espace des coordonnées caméra. Notre HDNet commence par estimer la posture humaine 2D via des cartes thermiques (heatmaps) des articulations. Ces cartes thermiques estimées agissent comme des masques d'attention, permettant le regroupement (pooling) des caractéristiques provenant des régions d'image associées à la personne cible. Pour propager ces caractéristiques entre les différentes articulations, nous utilisons un réseau neuronal graphique (GNN) basé sur le squelette humain. La régression du niveau profond cible est formulée sous forme d'un problème d'estimation d'indice bin, qui peut être converti à partir du résultat classificateur du HDNet grâce à une opération soft-argmax. Nous avons évalué nos performances en matière de localisation du joint racine et d'estimation 3D relative au joint racine en utilisant deux jeux de données de référence : Human3.6M et MuPoTS-3D. Les résultats expérimentaux démontrent que notre méthode surpassent constamment celles précédemment considérées comme étant au plus haut niveau (state-of-the-art) selon plusieurs critères d'évaluation. Le code source associé est disponible sur :https://github.com/jiahaoLjh/HumanDepth.注释:在上述翻译中,“state-of-the-art”被保留为英文术语,因为这是国际科技文献中常用的表达方式。同时,“soft-argmax operation”也直接使用了英文术语,以保持专业性。其他部分则根据法语的表达习惯进行了适当调整。