Analyse multi-humaine en une seule étape par ensembles de points et décalages centrés

Ce travail étudie le problème de l'analyse multi-personnes. Les méthodes existantes, qu'elles suivent des paradigmes en deux étapes de type haut vers bas ou bas vers haut, impliquent généralement des coûts computationnels élevés. Nous proposons en revanche une architecture de réseau neuronal profond à haute performance pour l'Analyse Multi-personnes en Une Étape (SMP) qui découple ce problème en deux sous-problèmes plus fins, à savoir la localisation du corps humain et de ses parties. Le SMP utilise les caractéristiques ponctuelles dans les positions des barycentres pour obtenir leur segmentation, puis génère une série d'offsets depuis le barycentre du corps humain jusqu'aux barycentres des parties, permettant ainsi d'effectuer le couplage entre le corps humain et ses parties sans passer par un processus de regroupement. Au sein de l'architecture SMP, nous introduisons un module de Conservation des Caractéristiques Affinées pour extraire la caractéristique globale des instances grâce à l'attention masquée générée, ainsi qu'un module de Reclassification du Masque d'Intérêt comme un module intégrable et entraînable afin d'affiner les résultats de classification avec la segmentation prédite. Des expériences approfondies sur le jeu de données MHPv2.0 démontrent l'excellence et l'efficacité de la méthode proposée, surpassant la méthode d'état de l'art de 2,1 % en AP50p, 1,0 % en APvolp et 1,2 % en PCP50. En particulier, la méthode proposée nécessite moins d'époques d'entraînement et une architecture de modèle moins complexe. Nous mettrons à disposition nos codes sources, modèles pré-entraînés et démonstrations en ligne pour faciliter les études ultérieures.