Leichtgewichts-Convolutional Neural Network mit Gauss-basierter Greifdarstellung für die Roboter-Griffdetektion

Die Methode des Deep Learning hat hervorragende Ergebnisse bei der Verbesserung der Leistungsfähigkeit der Roboter-Griffdetektion erzielt. Allerdings eignen sich die in der allgemeinen Objektdetektion verwendeten Deep-Learning-Verfahren nicht für die Roboter-Griffdetektion. Moderne Objektdetektoren sind derzeit schwerfällig, ein Gleichgewicht zwischen hoher Genauigkeit und schneller Inferenzgeschwindigkeit zu finden. In diesem Artikel präsentieren wir ein effizientes und robustes vollständig konvolutionelles neuronales Netzwerk, das zur Schätzung der Griffpose von Robotern aus einem n-Kanal-Eingabebild einer realen Griffszene eingesetzt wird. Das vorgeschlagene Netzwerk ist eine leichtgewichtige, einstufige generative Architektur für die Griffdetektion. Insbesondere wird eine auf der Gauss-Kern-Funktion basierende Griffrepräsentation eingeführt, um Trainingsbeispiele zu kodieren, wodurch das Prinzip der maximalen Vertrauenswürdigkeit des zentralen Griffpunkts realisiert wird. Gleichzeitig wird ein Rezeptivfeld-Block (Receptive Field Block, RFB) in den Bottleneck der Griffdetektionsarchitektur integriert, um multiskalare Informationen zu extrahieren und die Merkmalsunterscheidbarkeit zu erhöhen. Darüber hinaus werden Pixel- und Kanal-Attention kombiniert, um automatisch zu lernen, sich auf die Fusionsinformationen unterschiedlicher Formen und Größen zu konzentrieren, indem Rauschmerkmale unterdrückt und Merkmale des Griffobjekts hervorgehoben werden. Umfangreiche Experimente an zwei öffentlichen Griffdatensätzen, dem Cornell- und dem Jacquard-Datensatz, belegen die state-of-the-art-Leistung unserer Methode hinsichtlich des Gleichgewichts zwischen Genauigkeit und Inferenzgeschwindigkeit. Das Netzwerk ist um eine Größenordnung kleiner als andere hervorragende Algorithmen und erreicht dennoch eine bessere Leistung mit einer Genauigkeit von 98,9 % und 95,6 % auf den Datensätzen Cornell und Jacquard, jeweils.