StarMap pour l’estimation de points clés et de points de vue indépendamment des catégories

Les points clés sémantiques fournissent des abstractions concises pour diverses tâches de compréhension visuelle. Les méthodes existantes définissent les points clés sémantiques séparément pour chaque catégorie, avec un nombre fixe d'étiquettes sémantiques à des indices fixes. Par conséquent, cette représentation de points clés est inadaptée lorsque les objets possèdent un nombre variable de parties, par exemple des chaises avec un nombre variable de pieds. Nous proposons une représentation de points clés indifférente à la catégorie, qui combine une carte thermique multi-pic (StarMap) pour tous les points clés et leurs caractéristiques correspondantes en tant que positions 3D dans la vue canonique (CanViewFeature) définie pour chaque instance. Notre intuition est que les positions 3D des points clés dans les vues canoniques des objets contiennent des informations sémantiques et compositionnelles riches. En utilisant notre représentation flexible, nous démontrons des performances compétitives en détection et localisation de points clés comparées aux méthodes d'avant-garde spécifiques à chaque catégorie. De plus, nous montrons que lorsque notre représentation est augmentée par un canal de profondeur supplémentaire (DepthMap) pour élever les points clés 2D en 3D, elle peut atteindre des résultats d'avant-garde en estimation de la vue. Enfin, nous montrons que notre représentation de points clés indifférente à la catégorie peut être généralisée à de nouvelles catégories.