BB8: Eine skalierbare, genaue und robuste Methode zur Vorhersage der 3D-Positionen von anspruchsvollen Objekten ohne die Verwendung von Tiefeninformationen

Wir stellen eine neuartige Methode zur 3D-Objekterkennung und -Posebestimmung aus Farbbildern allein vor. Zunächst verwenden wir Segmentierung, um die Objekte von Interesse in 2D zu erkennen, auch bei teilweiser Verdeckung und komplexem Hintergrund. Im Gegensatz zu aktuellen patchbasierten Methoden setzen wir auf einen „holistischen“ Ansatz: Wir wenden ein Faltungsneuronales Netzwerk (Convolutional Neural Network, CNN) auf die erkannten Objekte an, das trainiert wurde, ihre 3D-Posen in Form von 2D-Projektionen der Ecken ihrer 3D-Bounding-Boxen vorherzusagen. Dies ist jedoch nicht ausreichend für die Objekte des jüngsten T-LESS-Datensatzes: Diese Objekte weisen eine Rotationsachse der Symmetrie auf, und die Ähnlichkeit zweier Bilder eines solchen Objekts unter zwei verschiedenen Posen macht das Training des CNNs schwierig. Wir lösen dieses Problem, indem wir den Bereich der Posen für das Training einschränken und einen Klassifizierer einführen, um den Bereich einer Pose zur Laufzeit zu identifizieren, bevor sie geschätzt wird. Wir verwenden außerdem einen optionalen zusätzlichen Schritt, der die vorhergesagten Posen verfeinert. Wir verbessern den Stand der Technik im LINEMOD-Datensatz von 73,7 % auf 89,3 % korrekt registrierter RGB-Bilder. Zudem sind wir die Ersten, die Ergebnisse am Occlusion-Datensatz mit ausschließlich Farbbildern berichten. Auf mehreren Sequenzen des T-LESS-Datensatzes erreichen wir durchschnittlich 54 % der Frames, die das Pose 6D-Kriterium erfüllen, im Vergleich zu 67 % des aktuellen Standes der Technik auf denselben Sequenzen, der sowohl Farb- als auch Tiefeninformation verwendet. Der vollständige Ansatz ist auch skalierbar, da ein einzelnes Netzwerk gleichzeitig für mehrere Objekte trainiert werden kann.