Réseau relationnel invariant par permutation pour l'estimation de la posture 3D multi-personnes

La récupération de poses 3D multiples à partir d'une seule image RGB est un problème extrêmement mal conditionné en raison de l'ambiguïté inhérente entre la profondeur 2D et 3D, des occultations interpersonnelles et des troncatures corporelles. Pour résoudre ces problèmes, les travaux récents ont montré des résultats prometteurs en raisonnant simultanément pour différentes personnes. Cependant, dans la plupart des cas, cela se fait en ne considérant que les interactions binaires entre les individus, ce qui entrave une représentation holistique de la scène capable de capturer les interactions à longue portée. Cette limitation est abordée par des approches qui traitent conjointement toutes les personnes présentes dans la scène, bien qu'elles nécessitent de définir l'un des individus comme référence et d'établir un ordre pré-défini des personnes, rendant ainsi leur performance sensible à ce choix. Dans cet article, nous surmontons ces deux limitations et proposons une approche pour l'estimation de poses 3D multiples qui capture les interactions à longue portée indépendamment de l'ordre d'entrée. À cette fin, nous construisons un réseau invariant aux permutations et similaire à un réseau résiduel qui affine avec succès les poses 3D initiales potentiellement corrompues estimées par un détecteur prêt à l'emploi. La fonction résiduelle est apprise via des blocs de Set Transformer, qui modélisent les interactions entre toutes les poses initiales, quel que soit leur ordre ou leur nombre. Une évaluation détaillée montre que notre approche est capable d'améliorer considérablement la performance des poses 3D initialement estimées, obtenant des résultats de pointe sur des benchmarks standardisés. De plus, le module proposé fonctionne de manière computationnellement efficace et peut être utilisé potentiellement comme complément direct pour tout détecteur de pose 3D dans des scènes impliquant plusieurs personnes.