Command Palette
Search for a command to run...
Occlusion-Net : Localisation 2D/3D de points clés masqués à l’aide de réseaux de graphes
Occlusion-Net : Localisation 2D/3D de points clés masqués à l’aide de réseaux de graphes
Srinivasa G. Narasimhan Minh Vo N. Dinesh Reddy
Résumé
Nous présentons Occlusion-Net, un cadre permettant de prédire les positions 2D et 3D des points clés masqués sur des objets, de manière largement auto-supervisée. Nous utilisons comme entrée un détecteur disponible commercialement (comme MaskRCNN), entraîné uniquement sur des annotations de points clés visibles. Il s'agit de la seule supervision utilisée dans ce travail. Un réseau encodeur de graphe classe ensuite explicitement les arêtes invisibles, tandis qu'un réseau décodeur de graphe corrige les positions des points clés masqués à partir des estimations initiales du détecteur. Le cœur de cette approche repose sur une perte tensorielle trifocale, qui fournit une auto-supervision indirecte pour les positions des points clés masqués, visibles dans d'autres vues de l'objet. Les points clés 2D sont ensuite transmis à un réseau graphique 3D, qui estime la forme 3D et la pose de la caméra à l’aide d’une perte de réprojection auto-supervisée. En phase de test, notre méthode parvient à localiser efficacement les points clés à partir d’une seule vue, même sous des conditions de masquage sévères et variées. Nous démontrons et évaluons notre approche sur des données synthétiques issues de modèles CAD ainsi que sur un grand ensemble d’images capturant des véhicules à de nombreuses intersections urbaines fréquentées. À titre intéressant, nous comparons la précision des étiquettes humaines pour les points clés invisibles à celle obtenue à partir de la perte géométrique basée sur le tenseur trifocal.