DPOD: 6D Objekt-Pose-Detektor und -Verfeinerer

In dieser Arbeit stellen wir eine neuartige Tiefenlernmethode zur 3D-Objekterkennung und 6D-Pose-Schätzung aus RGB-Bildern vor. Unsere Methode, die als DPOD (Dense Pose Object Detector) bezeichnet wird, schätzt dichte Mehrklassen-2D-3D-Korrespondenzkarten zwischen einem Eingabebild und verfügbaren 3D-Modellen. Mit den Korrespondenzen wird eine 6DoF-Pose durch PnP und RANSAC berechnet. Eine zusätzliche RGB-Pose-Verfeinerung der anfänglichen Pose-Schätzungen wird mit einem benutzerdefinierten tiefenlernenbasierten Verfeinerungsverfahren durchgeführt. Unsere Ergebnisse und Vergleiche mit einer Vielzahl verwandter Arbeiten zeigen, dass eine große Anzahl von Korrespondenzen sowohl vor als auch nach der Verfeinerung förderlich ist, um hochwertige 6D-Posen zu erzielen. Im Gegensatz zu anderen Methoden, die hauptsächlich reale Daten für das Training verwenden und nicht auf synthetischen Renderings trainieren, führen wir Evaluationen sowohl auf synthetischen als auch auf realen Trainingsdaten durch, wobei unsere Methode sowohl vor als auch nach der Verfeinerung überlegen ist im Vergleich zu allen aktuellen Detektoren. Obwohl präzise, ist der vorgestellte Ansatz weiterhin in Echtzeit nutzbar.