OpenPifPaf : Champs Composites pour la Détection de Points Clés Sémantiques et l'Association Spatio-Temporelle

De nombreuses tâches de perception basées sur des images peuvent être formulées comme la détection, l'association et le suivi de points clés sémantiques, par exemple, l'estimation et le suivi de la posture du corps humain. Dans ce travail, nous présentons un cadre général qui détecte et forme conjointement des associations spatio-temporelles de points clés en une seule étape, faisant ainsi de cette méthode le premier algorithme de détection et de suivi en temps réel. Nous proposons une architecture générique de réseau neuronal qui utilise des Champs Composites pour détecter et construire une posture spatio-temporelle, qui est un graphe unique et connecté dont les nœuds sont les points clés sémantiques (par exemple, les articulations d'une personne) dans plusieurs cadres. Pour les associations temporelles, nous introduisons le Champ d'Association Composée Temporelle (TCAF), qui nécessite une architecture de réseau étendue et une méthode d'entraînement au-delà des Champs Composites précédents. Nos expériences montrent une précision compétitive tout en étant d'un ordre de grandeur plus rapide sur plusieurs jeux de données publiquement disponibles tels que COCO, CrowdPose et les jeux de données PoseTrack 2017 et 2018. Nous montrons également que notre méthode se généralise à toute classe de points clés sémantiques tels que les parties des voitures et des animaux, fournissant ainsi un cadre global de perception bien adapté aux mobilités urbaines telles que les voitures autonomes et les robots de livraison.