HyperAIHyperAI
vor 16 Tagen

GDRNPP: Ein geometriegeleiteter und vollständig lernbasierter Objektpose-Schätzer

Xingyu Liu, Ruida Zhang, Chenyangguang Zhang, Gu Wang, Jiwen Tang, Zhigang Li, Xiangyang Ji
GDRNPP: Ein geometriegeleiteter und vollständig lernbasierter Objektpose-Schätzer
Abstract

Die Schätzung der 6D-Pose starrer Objekte ist eine lang bestehende und herausfordernde Aufgabe im Bereich der Computer Vision. In jüngster Zeit hat das Aufkommen des Deep Learning das Potenzial von Convolutional Neural Networks (CNNs) zur Vorhersage zuverlässiger 6D-Posen aufgezeigt. Da direkte Pose-Regression-Netzwerke derzeit noch suboptimale Leistung erzielen, greifen die meisten Methoden weiterhin zu unterschiedlichem Grad auf traditionelle Techniken zurück. Beispielsweise verwenden führende Ansätze oft eine indirekte Strategie, bei der zunächst 2D-3D- oder 3D-3D-Korrespondenzen hergestellt werden, gefolgt von der Anwendung des RANSAC-basierten PnP- oder des Kabsch-Algorithmus, um anschließend mittels ICP die Pose zu verfeinern. Trotz der verbesserten Genauigkeit macht die Integration traditioneller Techniken die Netzwerke jedoch zeitaufwändig und nicht end-to-end trainierbar. Im Gegensatz dazu stellt dieser Artikel einen vollständig lernbasierten Objektpose-Schätzer vor. In dieser Arbeit führen wir zunächst eine gründliche Untersuchung sowohl direkter als auch indirekter Methoden durch und schlagen ein einfaches, jedoch wirksames Geometry-gesteuertes Direkt-Regression-Netzwerk (GDRN) vor, das die 6D-Pose aus monokularen Bildern end-to-end lernt. Anschließend stellen wir ein geometriegeleitetes Pose-Verfeinerungsmodul vor, das die Genauigkeit der Pose erhöht, wenn zusätzliche Tiefendaten verfügbar sind. Aufgrund der vorhergesagten Koordinatenkarte bauen wir eine end-to-end differenzierbare Architektur auf, die robuste und genaue 3D-3D-Korrespondenzen zwischen beobachteten und gerenderten RGB-D-Bildern herstellt, um die Pose zu verfeinern. Unser verbessertes Pose-Schätzungs-Pipeline GDRNPP (GDRN Plus Plus) belegte zwei Jahre in Folge die Spitzenposition im BOP Challenge Leaderboard und ist die erste Methode, die sowohl in Genauigkeit als auch in Geschwindigkeit alle vorherigen Ansätze, die auf traditionelle Techniken zurückgriffen, übertroffen hat. Der Quellcode und die Modelle sind unter https://github.com/shanice-l/gdrnpp_bop2022 verfügbar.

GDRNPP: Ein geometriegeleiteter und vollständig lernbasierter Objektpose-Schätzer | Neueste Forschungsarbeiten | HyperAI