Echtzeit-Erkennung von Greifbewegungen mit Hilfe von Faltungsneuronalen Netzen

Wir präsentieren einen genauen, in Echtzeit arbeitenden Ansatz zur Greiferkennung von Robotern, der auf Faltungsneuronalen Netzen (Convolutional Neural Networks) basiert. Unser Netzwerk führt eine einstufige Regression zu greifbaren Begrenzungsboxen durch, ohne dabei Standard-Techniken wie das Gleitende Fenster oder Regionenvorschläge zu verwenden. Das Modell übertrifft die besten bisher bekannten Ansätze um 14 Prozentpunkte und erreicht eine Geschwindigkeit von 13 Bildern pro Sekunde auf einer GPU. Unser Netzwerk kann gleichzeitig Klassifikationen durchführen, sodass es in einem einzigen Schritt sowohl das Objekt erkennt als auch ein geeignetes Greifrechteck findet. Eine Modifikation dieses Modells ermöglicht die Vorhersage mehrerer Griffe pro Objekt durch Anwendung eines lokal eingeschränkten Vorhersemechanismus. Das lokal eingeschränkte Modell erzielt signifikant bessere Ergebnisse, insbesondere bei Objekten, die auf verschiedene Weisen greifbar sind.