Command Palette
Search for a command to run...
PoseCNN : un réseau de neurones convolutionnel pour l'estimation de la pose 6D d'objets dans des scènes encombrées
PoseCNN : un réseau de neurones convolutionnel pour l'estimation de la pose 6D d'objets dans des scènes encombrées
Xiang Yu Schmidt Tanner Narayanan Venkatraman Fox Dieter
Résumé
Estimer la pose 6D d'objets connus est essentiel pour permettre aux robots d'interagir avec le monde réel. Ce problème est particulièrement difficile en raison de la grande variété d'objets ainsi que de la complexité des scènes, dues au désordre et aux occlusions entre objets. Dans ce travail, nous introduisons PoseCNN, un nouveau réseau de neurones convolutif dédié à l'estimation de la pose 6D d'objets. PoseCNN estime la translation 3D d'un objet en localisant son centre dans l'image et en prédisant sa distance par rapport à la caméra. La rotation 3D de l'objet est estimée en régressant vers une représentation par quaternion. Nous proposons également une nouvelle fonction de perte qui permet à PoseCNN de traiter efficacement les objets symétriques. En outre, nous contribuons à la mise à disposition d'un grand jeu de données vidéo pour l'estimation de la pose 6D, intitulé YCB-Video. Ce jeu de données fournit des poses 6D précises pour 21 objets issus du jeu de données YCB, observés dans 92 vidéos, soit au total 133 827 images. Nous menons des expériences approfondies sur notre jeu de données YCB-Video ainsi que sur le jeu de données OccludedLINEMOD, montrant que PoseCNN est très robuste aux occlusions, capable de gérer les objets symétriques, et capable de fournir une estimation de pose précise en n'utilisant que des images couleur en entrée. Lorsqu'on utilise des données de profondeur pour affiner davantage les poses, notre approche atteint des résultats de pointe sur le jeu de données exigeant OccludedLINEMOD. Le code source et le jeu de données sont disponibles à l'adresse suivante : https://rse-lab.cs.washington.edu/projects/posecnn/.