PVNet: Pixelweise Abstimmungsnetzwerk für 6DoF-Pose-Schätzung

Dieses Papier behandelt die Herausforderung der 6DoF-Pose-Schätzung aus einem einzelnen RGB-Bild unter schwerer Verdeckung oder Abtrennung. Viele kürzliche Arbeiten haben gezeigt, dass ein zweistufiger Ansatz, der zunächst Keypoints detektiert und dann das Problem der Perspektive-n-Punkte (PnP) für die Pose-Schätzung löst, bemerkenswerte Leistungen erzielt. Die meisten dieser Methoden lokalisieren jedoch nur eine Menge sparsamer Keypoints durch Regression ihrer Bildkoordinaten oder Heatmaps, was sie anfällig für Verdeckung und Abtrennung macht. Stattdessen führen wir ein Pixel-basiertes Abstimmungsnetzwerk (Pixel-wise Voting Network, PVNet) ein, um pixelweise Einheitsvektoren zu regredieren, die auf die Keypoints zeigen, und verwenden diese Vektoren, um Keypoint-Lokalisationen mittels RANSAC abzustimmen. Dies schafft eine flexible Repräsentation zur Lokalisierung von verdeckten oder abgetrennten Keypoints. Eine weitere wichtige Eigenschaft dieser Repräsentation ist, dass sie Unsicherheiten der Keypoint-Lokalisationen bereitstellt, die vom PnP-Löser weiter genutzt werden können. Experimente zeigen, dass der vorgeschlagene Ansatz den Stand der Technik auf den Datensätzen LINEMOD, Occlusion LINEMOD und YCB-Video um einen großen Vorsprung übertrifft und gleichzeitig effizient genug für Echtzeit-Pose-Schätzungen ist. Wir erstellen ferner einen Truncation LINEMOD-Datensatz, um die Robustheit unseres Ansatzes gegen Abtrennung zu validieren. Der Code wird unter https://zju-3dv.github.io/pvnet/ verfügbar sein.