PoseCNN: Ein Faltungsneuronales Netzwerk zur 6D-Objekt-Pose-Schätzung in verstreuten Szenen

Die Schätzung der 6D-Pose bekannter Objekte ist für Roboter von Bedeutung, um mit der realen Welt zu interagieren. Das Problem ist aufgrund der Vielfalt der Objekte sowie der Komplexität einer Szene, die durch Verwirrung und Überlagerungen zwischen den Objekten verursacht wird, herausfordernd. In dieser Arbeit stellen wir PoseCNN vor, ein neues Faltungsneuronales Netzwerk (Convolutional Neural Network) zur 6D-Objekt-Pose-Schätzung. PoseCNN schätzt die 3D-Translation eines Objekts, indem es dessen Zentrum im Bild lokalisiert und dessen Entfernung von der Kamera vorhersagt. Die 3D-Rotation des Objekts wird durch Regression zu einer Quaternionendarstellung geschätzt. Wir führen außerdem eine neuartige Verlustfunktion ein, die PoseCNN ermöglicht, symmetrische Objekte zu behandeln. Darüber hinaus leisten wir einen Beitrag in Form eines umfangreichen Videodatensatzes zur 6D-Objekt-Pose-Schätzung, dem YCB-Video-Datensatz genannt. Unser Datensatz bietet präzise 6D-Posen von 21 Objekten aus dem YCB-Datensatz, die in 92 Videos mit insgesamt 133.827 Frames beobachtet wurden. Wir führen umfangreiche Experimente sowohl auf unserem YCB-Video-Datensatz als auch auf dem OccludedLINEMOD-Datensatz durch, um zu zeigen, dass PoseCNN gegenüber Überlagerungen hochgradig robust ist, symmetrische Objekte behandeln kann und präzise Pose-Schätzungen allein auf Basis von Farbbildern als Eingabe liefert. Bei Verwendung von Tiefendaten zur weiteren Verfeinerung der Posen erreicht unser Ansatz standesübliche Ergebnisse auf dem anspruchsvollen OccludedLINEMOD-Datensatz. Unser Code und unser Datensatz sind unter https://rse-lab.cs.washington.edu/projects/posecnn/ verfügbar.