Effiziente Heatmap-gesteuerte 6-Dof Greifererkennung in komplexen Szenen

Schnelles und robustes Objekterfassen in unstrukturierten Umgebungen ist ein entscheidendes Element der Robotik. Die meisten aktuellen Arbeiten greifen auf die gesamte beobachtete Punktwolke zurück, um 6-Dof-Griffe zu generieren, wobei sie die aus der globalen Semantik gewonnenen Leitinformationen ignorieren. Dies begrenzt sowohl die Erzeugung hochwertiger Griffe als auch die Echtzeit-Leistung. In dieser Arbeit zeigen wir, dass die weit verbreiteten Heatmaps in ihrer Effizienz bei der 6-Dof-Griff-Generierung unterschätzt werden. Daher schlagen wir einen effektiven lokalen Griff-Generator vor, der zusammen mit Griff-Heatmaps als Leitung verwendet wird und in einer von global zu lokal und von semantisch zu punktuell arbeitenden Weise inferiert.Speziell werden Gauß-Codierung und eine gitterbasierte Strategie angewendet, um Griff-Heatmaps als Leitung zur Aggregation lokaler Punkte in erfassbare Bereiche und zur Bereitstellung globaler semantischer Informationen zu prognostizieren. Darüber hinaus wurde ein neuer nicht-gleichmäßiger Ankersampling-Mechanismus entwickelt, um die Genauigkeit und Vielfalt der Griffe zu verbessern. Dank der hoch-effizienten Codierung im Bildraum und der Konzentration auf Punkte in lokalen erfassbaren Bereichen kann unser Framework hochwertige Griff-Erkennung in Echtzeit durchführen und Stand-of-the-Art-Ergebnisse erzielen. Zudem demonstrieren reale Roboterexperimente die Effektivität unserer Methode mit einem Erfolgsrate von 94 % und einer Vervollständigungsrate für unstrukturierte Umgebungen von 100 %. Unser Code ist unter https://github.com/THU-VCLab/HGGD verfügbar.