PoseCNN : Un réseau neuronal convolutif pour l'estimation de la pose 6D d'objets dans des scènes encombrées

L'estimation de la pose 6D d'objets connus est cruciale pour permettre aux robots d'interagir avec le monde réel. Ce problème est complexe en raison de la variété des objets ainsi que de la difficulté inhérente à une scène, causée par les encombrements et les occultations entre les objets. Dans cette étude, nous présentons PoseCNN, un nouveau réseau neuronal convolutif (Convolutional Neural Network) dédié à l'estimation de la pose 6D des objets. PoseCNN estime la translation 3D d'un objet en localisant son centre dans l'image et en prédiction sa distance par rapport à la caméra. La rotation 3D de l'objet est estimée par régression vers une représentation quaternionienne. Nous introduisons également une nouvelle fonction de perte qui permet à PoseCNN de traiter les objets symétriques. De plus, nous contribuons avec un ensemble de données vidéo à grande échelle pour l'estimation de la pose 6D des objets, nommé le YCB-Video dataset. Notre ensemble de données fournit des poses 6D précises de 21 objets issus du YCB dataset observés dans 92 vidéos comprenant 133 827 images. Nous menons des expériences approfondies sur notre YCB-Video dataset et sur le dataset OccludedLINEMOD afin de démontrer que PoseCNN est très robuste face aux occultations, peut gérer les objets symétriques et fournit une estimation précise de la pose en utilisant uniquement des images couleur comme entrée. Lorsque des données profondeur sont utilisées pour affiner davantage les poses, notre méthode atteint des résultats d'état de l'art sur le dataset OccludedLINEMOD particulièrement difficile. Notre code source et notre ensemble de données sont disponibles à l'adresse suivante : https://rse-lab.cs.washington.edu/projects/posecnn/.