Pose for Everything : Vers une estimation de la pose indépendante des catégories

Les travaux existants sur l'estimation de la posture en 2D se concentrent principalement sur une catégorie spécifique, par exemple les humains, les animaux et les véhicules. Cependant, de nombreuses situations d'application nécessitent la détection des postures/points clés d'objets appartenant à des classes non vues. Dans cet article, nous introduisons la tâche d'Estimation de Posture Indépendante de la Catégorie (CAPE), qui vise à créer un modèle d'estimation de posture capable de détecter la posture de toute classe d'objet à partir d'un petit nombre d'échantillons avec une définition des points clés. Pour atteindre cet objectif, nous formulons le problème d'estimation de posture comme un problème de correspondance des points clés et concevons un nouveau cadre CAPE, appelé Réseau de Correspondance de Posture (POMNet). Nous proposons également un module d'Interaction des Points Clés (KIM) basé sur les transformers pour capturer à la fois les interactions entre différents points clés et la relation entre les images supports et requêtes. Nous présentons également le jeu de données Multi-catégorie Pose (MP-100), qui est un jeu de données 2D contenant 100 catégories d'objets avec plus de 20 000 instances et qui est bien conçu pour le développement d'algorithmes CAPE. Les expériences montrent que notre méthode surpass largement les autres approches baselines. Le code source et les données sont disponibles à l'adresse suivante : https://github.com/luminxu/Pose-for-Everything.