HyperAIHyperAI
il y a 2 mois

Segmentation d'objets 3D inconnus à partir d'images de profondeur réelles en utilisant Mask R-CNN formé sur des données synthétiques

Michael Danielczuk; Matthew Matl; Saurabh Gupta; Andrew Li; Andrew Lee; Jeffrey Mahler; Ken Goldberg
Segmentation d'objets 3D inconnus à partir d'images de profondeur réelles en utilisant Mask R-CNN formé sur des données synthétiques
Résumé

La capacité de segmenter des objets inconnus dans des images de profondeur a le potentiel d'améliorer les compétences des robots en matière de saisie et de suivi d'objets. Des recherches récentes en vision par ordinateur ont démontré que Mask R-CNN peut être formé pour segmenter des catégories spécifiques d'objets dans des images RGB lorsque de vastes bases de données étiquetées manuellement sont disponibles. Étant donné que la génération de ces bases de données est très chronophage, nous avons opté pour l'utilisation d'images de profondeur synthétiques. De nombreux robots utilisent aujourd'hui des capteurs de profondeur, et les résultats récents suggèrent que la formation sur des données de profondeur synthétiques peut se transférer avec succès au monde réel. Nous présentons une méthode pour la génération automatique de bases de données et produisons rapidement une base de données d'entraînement synthétique composée de 50 000 images de profondeur et 320 000 masques d'objets à partir d'amas simulés de modèles CAD 3D. Nous formons une variante de Mask R-CNN avec une randomisation du domaine sur la base de données générée afin qu'elle puisse effectuer une segmentation d'instances indifférente aux catégories sans aucune donnée étiquetée manuellement, et nous évaluons le réseau formé, que nous appelons Mask R-CNN Synthétique Profondeur (SD), sur un ensemble d'images réelles, haute résolution, issues d'une profondeur complexe contenant des objets à géométrie très variable. Le Mask R-CNN SD surpass les méthodes basées sur le regroupement des nuages de points avec une amélioration absolue de 15 % en Précision Moyenne et 20 % en Rappel Moyen selon les critères COCO, et atteint des niveaux de performance similaires à ceux d'un Mask R-CNN formé sur une vaste base de données RGB étiquetée manuellement et affiné sur des images réelles provenant du dispositif expérimental. Nous intégrons le modèle dans un pipeline spécifique à l'instance pour saisir et démontrer son utilité dans une application robotique. Le code source, la base de données synthétique d'entraînement et les documents complémentaires sont disponibles à l'adresse https://bit.ly/2letCuE.

Segmentation d'objets 3D inconnus à partir d'images de profondeur réelles en utilisant Mask R-CNN formé sur des données synthétiques | Articles de recherche récents | HyperAI