Command Palette
Search for a command to run...
PoseCNN: Ein konvolutionales neuronales Netzwerk zur Schätzung der 6D-Objektpose in stark gestörten Szenen
PoseCNN: Ein konvolutionales neuronales Netzwerk zur Schätzung der 6D-Objektpose in stark gestörten Szenen
Xiang Yu Schmidt Tanner Narayanan Venkatraman Fox Dieter
Zusammenfassung
Die Schätzung der 6D-Pose bekannter Objekte ist entscheidend für die Interaktion von Robotern mit der realen Welt. Das Problem ist herausfordernd, da eine Vielzahl an Objekten sowie die Komplexität einer Szene durch Unordnung und Verdeckungen zwischen Objekten entstehen. In dieser Arbeit stellen wir PoseCNN vor, ein neuartiges Convolutional Neural Network zur Schätzung der 6D-Pose von Objekten. PoseCNN schätzt die 3D-Translation eines Objekts, indem es dessen Zentrum im Bild lokalisiert und den Abstand zum Camera bestimmt. Die 3D-Rotation wird durch Regression auf eine Quaternion-Darstellung geschätzt. Zudem führen wir eine neuartige Verlustfunktion ein, die es PoseCNN ermöglicht, symmetrische Objekte zu verarbeiten. Darüber hinaus präsentieren wir eine große, zeitlich aufgelöste Video-Datenbank für die 6D-Pose-Schätzung, die YCB-Video-Datenbank. Unser Datensatz liefert präzise 6D-Posen von 21 Objekten aus dem YCB-Datensatz, die in 92 Videos mit insgesamt 133.827 Bildern beobachtet wurden. Wir führen umfangreiche Experimente auf unserer YCB-Video-Datenbank sowie auf der OccludedLINEMOD-Datenbank durch und zeigen, dass PoseCNN hochgradig robust gegenüber Verdeckungen ist, symmetrische Objekte verarbeiten kann und genaue Pose-Schätzungen unter Verwendung lediglich von Farbbildern als Eingabe liefert. Bei Verwendung von Tiefendaten zur weiteren Verfeinerung der Pose erreicht unser Ansatz state-of-the-art-Ergebnisse auf der anspruchsvollen OccludedLINEMOD-Datenbank. Unsere Code-Implementierung und der Datensatz sind unter https://rse-lab.cs.washington.edu/projects/posecnn/ verfügbar.