PVNet : Réseau de vote pixel par pixel pour l'estimation de la pose 6DoF

Ce travail aborde le défi de l'estimation de la pose 6DoF à partir d'une seule image RGB en présence d'occlusions ou de troncatures sévères. De nombreuses études récentes ont montré qu'une approche en deux étapes, qui détecte d'abord des points clés puis résout un problème Perspective-n-Point (PnP) pour l'estimation de la pose, atteint des performances remarquables. Cependant, la plupart de ces méthodes ne localisent qu'un ensemble de points clés épars en régressant leurs coordonnées d'image ou des cartes de chaleur, ce qui les rend sensibles aux occlusions et aux troncatures. À la place, nous introduisons un réseau de vote par pixel (Pixel-wise Voting Network, PVNet) pour régresser des vecteurs unitaires par pixel pointant vers les points clés et utiliser ces vecteurs pour voter les positions des points clés via RANSAC. Ceci crée une représentation flexible pour localiser des points clés occlus ou tronqués. Une autre caractéristique importante de cette représentation est qu'elle fournit des incertitudes sur les positions des points clés qui peuvent être exploitées davantage par le solveur PnP. Les expériences montrent que l'approche proposée surpasse largement l'état de l'art sur les jeux de données LINEMOD, Occlusion LINEMOD et YCB-Video, tout en étant efficace pour l'estimation de pose en temps réel. Nous avons également créé un jeu de données Truncation LINEMOD pour valider la robustesse de notre méthode face aux troncatures. Le code sera disponible à l'adresse suivante : https://zju-3dv.github.io/pvnet/.