HyperAIHyperAI
il y a 2 mois

BB8 : Une méthode scalable, précise et robuste à l’occlusion partielle pour prédire les poses 3D d’objets difficiles sans utiliser la profondeur

Mahdi Rad; Vincent Lepetit
BB8 : Une méthode scalable, précise et robuste à l’occlusion partielle pour prédire les poses 3D d’objets difficiles sans utiliser la profondeur
Résumé

Nous présentons une nouvelle méthode pour la détection d'objets 3D et l'estimation de leur pose à partir d'images couleur uniquement. Nous utilisons d'abord la segmentation pour détecter les objets d'intérêt en 2D, même en présence d'occlusions partielles et d'un arrière-plan encombré. Contrairement aux méthodes récentes basées sur des patches, nous adoptons une approche « holistique » : nous appliquons un réseau neuronal convolutif (CNN) aux objets détectés, ce réseau étant formé pour prédire leurs poses 3D sous forme de projections 2D des coins de leurs boîtes englobantes 3D. Cependant, cela ne suffit pas pour traiter les objets du jeu de données T-LESS récent : ces objets présentent un axe de symétrie rotationnelle, et la similarité de deux images de ces objets sous deux poses différentes rend l'entraînement du CNN difficile. Nous résolvons ce problème en restreignant la gamme des poses utilisées pour l'entraînement, et en introduisant un classifieur pour identifier la gamme d'une pose au moment de l'exécution avant de l'estimer. Nous utilisons également une étape optionnelle supplémentaire qui affine les poses prédites. Nous améliorons l'état de l'art sur le jeu de données LINEMOD, passant de 73,7 % à 89,3 % d'images RGB correctement enregistrées. Nous sommes également les premiers à rapporter des résultats sur le jeu de données Occlusion en utilisant uniquement des images couleur. Sur plusieurs séquences du jeu de données T-LESS, nous obtenons en moyenne 54 % des images satisfaisant le critère Pose 6D, contre 67 % pour l'état de l'art sur les mêmes séquences qui utilise à la fois des images couleur et profondeur. Notre approche complète est également évolutive, car un seul réseau peut être formé simultanément pour plusieurs objets.

BB8 : Une méthode scalable, précise et robuste à l’occlusion partielle pour prédire les poses 3D d’objets difficiles sans utiliser la profondeur | Articles de recherche récents | HyperAI