Command Palette
Search for a command to run...
Occlusion-Net: 2D/3D occludierte Keypoint-Lokalisierung mittels Graph-Netzwerke
Occlusion-Net: 2D/3D occludierte Keypoint-Lokalisierung mittels Graph-Netzwerke
Srinivasa G. Narasimhan Minh Vo N. Dinesh Reddy
Zusammenfassung
Wir präsentieren Occlusion-Net, einen Ansatz zur Vorhersage von 2D- und 3D-Positionen occludierter Schlüsselpunkte von Objekten in einer weitgehend selbstüberwachten Weise. Als Eingabe verwenden wir einen kommerziell erhältlichen Detektor (z. B. Mask R-CNN), der ausschließlich auf sichtbaren Schlüsselpunktannotierungen trainiert wurde. Dies ist die einzige verwendete Überwachung in dieser Arbeit. Ein Graph-Encoder-Netzwerk klassifiziert anschließend explizit unsichtbare Kanten, während ein Graph-Decoder-Netzwerk die Positionen occludierter Schlüsselpunkte anhand der ursprünglichen Detektor-Ausgabe korrigiert. Zentraler Bestandteil dieses Ansatzes ist eine Trifokal-Tensor-Verlustfunktion, die indirekte selbstüberwachte Signale für occludierte Schlüsselpunkte bereitstellt, die in anderen Ansichten des Objekts sichtbar sind. Die 2D-Schlüsselpunkte werden anschließend in ein 3D-Graph-Netzwerk übergeben, das die 3D-Form und die Kamerapose mittels einer selbstüberwachten Reprojektionsverlustfunktion schätzt. In der Testphase gelingt es unserem Ansatz, Schlüsselpunkte in einer einzigen Ansicht unter einer Vielzahl schwerer Ocklusionsszenarien erfolgreich zu lokalisieren. Wir demonstrieren und evaluieren unseren Ansatz an synthetischen CAD-Daten sowie an einer großen Bildsammlung, die Fahrzeuge an zahlreichen belebten Stadtkreuzungen abbildet. Als interessanter Nebeneffekt vergleichen wir die Genauigkeit menschlicher Annotationen unsichtbarer Schlüsselpunkte mit denjenigen, die mittels der geometrischen Trifokal-Tensor-Verlustfunktion ermittelt werden.