Echtzeit-Mehrobject-, Multigrasp-Detektion

Es wird eine tiefe Lernarchitektur vorgeschlagen, um greifbare Positionen für die robotergestützte Manipulation vorherzusagen. Die Methode berücksichtigt Situationen, in denen kein, ein oder mehrere Objekte erkannt werden. Durch die Formulierung des Lernproblems als Klassifikation unter Nutzung eines Null-Hypothesen-Wettbewerbs anstelle einer Regression ermöglicht das tiefe neuronale Netzwerk mit Eingabedaten aus RGB- und Tiefenbild (RGB-D) in einem einzigen Durchlauf die Vorhersage mehrerer Greifkandidaten für ein einzelnes Objekt oder mehrere Objekte. Die Methode erreicht auf dem Cornell-Datensatz eine Genauigkeit von jeweils 96,0 % und 96,1 % bei der Bild- und Objektsplit-Evaluation, wodurch sie state-of-the-art-Ansätze übertrifft. Die Bewertung auf einem Multiobjekt-Datensatz demonstriert die Generalisierungsfähigkeit der Architektur. Greifexperimente erzielen eine Lokalisierungsgenauigkeit von 96,0 % und eine Erfolgsrate von 89,0 % bei der Greifaktion auf einer Testmenge von Haushaltsgegenständen. Der Echtzeitprozess benötigt weniger als 0,25 Sekunden von der Bildaufnahme bis zur Planung.