Réexaminer l’estimation de la posture dans les foules : surmonter le goulot d’étranglement de l’information de détection et l’ambiguïté

Les interactions fréquentes entre les individus constituent un défi fondamental pour les algorithmes d'estimation de la posture. Les pipelines actuels utilisent soit un détecteur d'objets associé à un estimateur de posture (approche descendante), soit localisent d'abord toutes les parties du corps avant de les relier pour prédire la posture des individus (approche ascendante). Cependant, lorsqu'il y a une interaction étroite entre les individus, les méthodes descendantes sont mal définies en raison des chevauchements, tandis que les méthodes ascendantes établissent souvent de fausses connexions avec des parties du corps distantes. Ainsi, nous proposons un nouveau pipeline appelé estimation de la posture ascendante conditionnée descendante (BUCTD) qui combine les forces des approches ascendante et descendante. Plus précisément, nous suggérons d'utiliser un modèle ascendante comme détecteur, qui, en plus d'une boîte englobante estimée, fournit une proposition de posture qui est ensuite utilisée comme condition dans un modèle descendante basé sur l'attention. Nous démontrons les performances et l'efficacité de notre approche sur des bancs d'essai d'estimation de la posture animale et humaine. Sur CrowdPose et OCHuman, nous surpassons nettement les modèles précédents de l'état de l'art. Nous obtenons 78,5 AP sur CrowdPose et 48,5 AP sur OCHuman, ce qui représente une amélioration respective de 8,6 % et 7,8 % par rapport aux travaux antérieurs. De plus, nous montrons que notre méthode améliore considérablement les performances sur des bancs d'essai impliquant plusieurs animaux tels que des poissons et des singes. Le code est disponible à l'adresse suivante : https://github.com/amathislab/BUCTD