HyperAIHyperAI
vor 2 Monaten

Echtzeit-fähige nahtlose Einzelschuss-6D-Objekt-Pose-Vorhersage

Bugra Tekin; Sudipta N. Sinha; Pascal Fua
Echtzeit-fähige nahtlose Einzelschuss-6D-Objekt-Pose-Vorhersage
Abstract

Wir schlagen einen Einzelschuss-Ansatz vor, der es ermöglicht, ein Objekt in einem RGB-Bild simultan zu erkennen und dessen 6D-Pose ohne mehrere Stufen oder die Prüfung verschiedener Hypothesen vorherzusagen. Im Gegensatz zu einer kürzlich vorgeschlagenen Einzelschuss-Methode für diese Aufgabe (Kehl et al., ICCV'17), die nur eine approximative 6D-Pose vorhersagt, die anschließend verfeinert werden muss, ist unser Ansatz präzise genug, um keine zusätzliche Nachbearbeitung zu erfordern. Als Ergebnis ist er viel schneller – 50 fps auf einer Titan X (Pascal) GPU – und besser geeignet für Echtzeitverarbeitung. Der Kernbestandteil unserer Methode ist eine neue CNN-Architektur, die sich von der YOLO-Netzwerkstruktur inspirieren lässt und direkt die 2D-Bildpositionen der projizierten Eckpunkte des 3D-Bounding Boxes des Objekts vorhersagt. Die 6D-Pose des Objekts wird dann mittels eines PnP-Algorithmus geschätzt.Für die Pose-Schätzung von einzelnen und mehreren Objekten in den LINEMOD- und OCCLUSION-Datensätzen übertrifft unser Ansatz andere neuere CNN-basierte Methoden erheblich, wenn alle ohne Nachbearbeitung eingesetzt werden. Während bei der Nachbearbeitung ein Schritt zur Verfeinerung der Pose verwendet werden kann, um die Genauigkeit bestehender Methoden zu steigern, sind diese bei 10 fps oder weniger deutlich langsamer als unsere Methode.