W-PoseNet: Dichtes Korrespondenzregulierter Pixelpaar-Poseregression

Die Lösung des Problems der 6D-Pose-Schätzung ist nicht trivial, da sie mit intrinsischen Erscheinungs- und Formunterschieden sowie schwerwiegenden Interobjekt-Oberlagerungen umgehen muss. Dies wird durch extrinsische Faktoren wie starke Beleuchtungsänderungen und die geringe Qualität der erworbenen Daten in einer unkontrollierten Umgebung noch erschwert. In dieser Arbeit wird ein neuer Pose-Schätzalgorithmus namens W-PoseNet vorgestellt, der von den Eingangsdaten dicht zur 6D-Pose und auch zu 3D-Koordinaten im Modellraum regressiert. Mit anderen Worten, lokale Merkmale, die für die Pose-Regression in unserem tiefen Netzwerk gelernt werden, werden durch das explizite Lernen einer pixelweisen Korrespondenzabbildung auf 3D-pose-sensible Koordinaten als Nebenaufgabe regularisiert. Darüber hinaus sind eine dünn besetzte Kombination von pixelweisen Merkmalen und eine weiche Abstimmung über Pose-Vorhersagen von Pixelpaaren entwickelt worden, um die Robustheit gegenüber inkonsistenten und dünn besetzten lokalen Merkmalen zu verbessern. Experimentelle Ergebnisse auf den bekannten Benchmarks YCB-Video und LineMOD zeigen, dass das vorgeschlagene W-PoseNet konsistent bessere Leistungen als die bislang besten Algorithmen erzielt.