Détection multiobjets, multigrasps dans le monde réel

Une architecture d’apprentissage profond est proposée pour prédire les emplacements saisissables dans le cadre de la manipulation robotique. Elle prend en compte des scénarios où aucun objet, un seul objet ou plusieurs objets sont détectés. En reformulant le problème d’apprentissage comme une classification basée sur une compétition d’hypothèses nulles au lieu d’une régression, le réseau de neurones profond, prenant en entrée des images RGB-D (couleur et profondeur), prédit simultanément plusieurs candidats à la saisie pour un objet unique ou plusieurs objets en une seule passe. La méthode dépasse les approches de pointe sur le jeu de données Cornell, atteignant respectivement 96,0 % et 96,1 % de précision sur les divisions par image et par objet. L’évaluation sur un jeu de données à plusieurs objets démontre la capacité de généralisation de l’architecture. Des expériences de saisie réalisées sur des objets domestiques atteignent un taux de localisation de saisie de 96,0 % et un taux de succès de saisie de 89,0 % sur un ensemble de test. Le traitement en temps réel nécessite moins de 0,25 seconde pour passer de l’image au plan de saisie.