PVN3D: Ein tiefes punktgenaues 3D-Keypoints-Voting-Netzwerk für die 6DoF-Pose-Schätzung
In dieser Arbeit präsentieren wir eine neuartige datengetriebene Methode zur robusten 6DoF-Objekt-Pose-Schätzung aus einem einzelnen RGBD-Bild. Im Gegensatz zu früheren Ansätzen, die Pose-Parameter direkt regressieren, lösen wir diese anspruchsvolle Aufgabe mit einem keypoints-basierten Verfahren. Genauer gesagt schlagen wir ein tiefes Hough-Voting-Netzwerk vor, um 3D-Keypoints von Objekten zu erkennen und anschließend die 6D-Pose-Parameter mittels einer Methode der kleinsten Quadrate zu schätzen. Unsere Methode ist eine natürliche Erweiterung der 2D-Keypoint-Ansätze, die bei der RGB-basierten 6DoF-Schätzung erfolgreich eingesetzt werden. Sie ermöglicht es uns, die geometrischen Restriktionen starrer Objekte vollständig unter Verwendung zusätzlicher Tiefeninformationen auszunutzen und ist für ein Netzwerk leicht lernbar und optimierbar. Um die Effektivität der 3D-Keypoint-Erkennung in der 6D-Pose-Schätzung aufzuzeigen, wurden umfangreiche Experimente durchgeführt. Die experimentellen Ergebnisse zeigen zudem, dass unsere Methode auf mehreren Benchmarks deutlich besser als die bislang besten Methoden abschneidet. Der Quellcode und ein Video sind unter https://github.com/ethnhe/PVN3D.git verfügbar.