Détection de la Prise Robotique à l'Aide de Réseaux Neuronaux Convolutifs Profonds

L'apprentissage profond a considérablement fait progresser la vision par ordinateur et le traitement du langage naturel. Bien qu'il y ait eu quelques succès en robotique grâce à l'apprentissage profond, cette technologie n'a pas encore été largement adoptée dans ce domaine. Dans cet article, nous présentons un nouveau système de détection de prises robotiques capable de prédire la meilleure position de saisie d'une pince robotique à plaques parallèles pour des objets inconnus, en utilisant l'image RGB-D de la scène. Le modèle proposé utilise un réseau neuronal convolutif profond pour extraire les caractéristiques de la scène, puis un réseau neuronal convolutif peu profond pour prédire la configuration de saisie de l'objet d'intérêt. Notre modèle multi-modale a atteint une précision de 89,21 % sur le jeu de données standard Cornell Grasp et fonctionne à des vitesses en temps réel. Ceci redéfinit l'état de l'art en matière de détection de prises robotiques.