Apprentissage de Caractéristiques Riches à Partir d'Images RGB-D pour la Détection et la Segmentation d'Objets

Dans cet article, nous étudions le problème de détection d'objets pour les images RGB-D en utilisant des caractéristiques d'image et de profondeur sémantiquement riches. Nous proposons une nouvelle plongée géocentrique pour les images de profondeur qui encode, pour chaque pixel, la hauteur au-dessus du sol et l'angle par rapport à la gravité, en plus de la disparité horizontale. Nous montrons que cette plongée géocentrique fonctionne mieux que l'utilisation d'images de profondeur brutes pour apprendre des représentations de caractéristiques avec des réseaux neuronaux convolutifs. Notre système final de détection d'objets atteint une précision moyenne de 37,3 %, ce qui représente une amélioration relative de 56 % par rapport aux méthodes existantes. Nous nous concentrons ensuite sur la tâche de segmentation d'instances où nous étiquetons les pixels appartenant aux instances d'objets détectées par notre détecteur. Pour cette tâche, nous proposons une approche basée sur une forêt de décision qui classe les pixels dans la fenêtre de détection comme faisant partie du premier plan ou du fond en utilisant une famille de tests unaires et binaires qui interrogent les caractéristiques de forme et de pose géocentrique. Enfin, nous utilisons les résultats fournis par nos détecteurs d'objets dans un cadre existant de classification de superpixels pour la segmentation sémantique des scènes et obtenons une amélioration relative de 24 % par rapport à l'état actuel de l'art pour les catégories d'objets que nous étudions. Nous pensons que des avancées telles que celles présentées dans cet article faciliteront l'utilisation de la perception dans des domaines comme la robotique.