Apprentissage Profond pour la Détection des Prises Robotiques

Nous abordons le problème de la détection des prises robotiques dans une vue RGB-D d'une scène contenant des objets. Dans cette étude, nous appliquons une approche basée sur l'apprentissage profond pour résoudre ce problème, évitant ainsi la conception manuelle fastidieuse des caractéristiques. Cette approche présente deux défis principaux. Premièrement, il est nécessaire d'évaluer un grand nombre de prises candidates. Pour accélérer la détection tout en assurant sa robustesse, nous proposons une structure en cascade en deux étapes utilisant deux réseaux profonds, où les meilleures détections issues du premier réseau sont réévaluées par le second. Le premier réseau dispose de moins de caractéristiques, est plus rapide à exécuter et peut efficacement éliminer les prises candidates peu probables. Le second réseau, doté de plus de caractéristiques, est plus lent mais n'a besoin d'être exécuté que sur les meilleures détections issues du premier réseau. Deuxièmement, il faut bien gérer les entrées multimodales. Nous présentons une méthode permettant d'appliquer une régularisation structurée sur les poids basée sur la régularisation de groupe multimodal (multimodal group regularization). Nous montrons que notre méthode surpasses les méthodes précédentes de l'état de l'art en matière de détection des prises robotiques et peut être utilisée avec succès pour exécuter des prises sur deux plateformes robotiques différentes.