GPV-Pose : Estimation de la pose d'objets à niveau catégoriel par vote géométrique ponctuel

Bien que l'estimation de la pose d'objets en 6D ait récemment connu des progrès considérables, la plupart des méthodes ne peuvent encore gérer qu'un seul ou un petit nombre d'objets différents, ce qui limite leurs applications. Pour contourner ce problème, l'estimation de la pose d'objets au niveau des catégories a été récemment revue, visant à prédire la pose en 6D ainsi que la taille métrique en 3D pour des instances inconnues issues d'un ensemble donné de classes d'objets. Cependant, cette tâche est beaucoup plus complexe en raison des variations de forme importantes au sein des classes. Pour résoudre cette question, nous proposons GPV-Pose, un cadre novateur pour une estimation de pose robuste au niveau des catégories, exploitant les connaissances géométriques afin d'améliorer l'apprentissage de caractéristiques sensibles à la pose au niveau des catégories. Premièrement, nous introduisons une représentation de rotation décorrélée guidée par la confiance, permettant une restitution géométriquement consciente de la matrice de rotation associée. Deuxièmement, nous proposons un nouveau paradigme de vote ponctuel guidé par la géométrie pour une récupération robuste du boîte englobante 3D de l'objet. Enfin, en utilisant ces différents flux de sortie, nous pouvons imposer plusieurs termes de cohérence géométrique, ce qui améliore encore les performances, particulièrement pour les catégories non symétriques. GPV-Pose produit des résultats supérieurs à ceux des concurrents les plus avancés sur des benchmarks publics courants, tout en atteignant presque une vitesse d'inférence temps réel à 20 images par seconde (FPS).