End-to-End differenzierbare 6DoF Objektpose-Schätzung mit lokalen und globalen Constraints

Die Schätzung der 6-DoF-Position eines Objekts aus einem einzigen RGB-Bild ist eine wichtige, jedoch herausfordernde Aufgabe, insbesondere unter starker Verdeckung. Obwohl neuere Ansätze die klassischen zweistufigen Methoden durch die Einführung eines end-to-end-Trainingspipelines verbessern, berücksichtigen sie weder lokale noch globale Einschränkungen. In diesem Paper stellen wir eine Paarweisen Merkmalsextraktion zur Integration lokaler Einschränkungen sowie eine Triplet-Regularisierung zur Integration globaler Einschränkungen vor, um die Schätzung der 6-DoF-Objektpose zu verbessern. In Kombination mit einer verbesserten Datenaugmentation erreicht unser Ansatz auf dem anspruchsvollen Occlusion-Linemod-Datensatz Ergebnisse auf dem Stand der Technik, wobei eine Verbesserung um 9 % gegenüber dem vorherigen Bestwert erzielt wird. Zudem erzielt unsere Methode wettbewerbsfähige Ergebnisse auf dem standardmäßigen Linemod-Datensatz.