GCNDepth: Selbstüberwachte monokulare Tiefenschätzung basierend auf Graphen-Convolutional Networks

Die Tiefenschätzung ist eine anspruchsvolle Aufgabe der 3D-Rekonstruktion, die darauf abzielt, die Genauigkeit der Umgebungswahrnehmung zu verbessern. In dieser Arbeit wird eine neue Lösung vorgestellt, die eine Reihe von Verbesserungen bietet und sowohl quantitativ als auch qualitativ ein tieferes Verständnis von Tiefenkarten gegenüber bestehenden Methoden ermöglicht. Kürzlich hat sich gezeigt, dass convolutionale Neuronale Netze (CNN) eine außerordentliche Fähigkeit zur Schätzung von Tiefenkarten aus monokularen Videos besitzen. Allerdings unterstützen traditionelle CNN keine topologischen Strukturen und können nur auf regulären Bildregionen mit festgelegter Größe und Gewichtung arbeiten. Im Gegensatz dazu können Graphen-Convolutional-Netze (GCN) die Faltung auf nicht-Euklidischen Daten durchführen und somit auf irreguläre Bildregionen innerhalb einer topologischen Struktur angewendet werden. Daher zielt diese Arbeit darauf ab, GCN zur Entwicklung eines selbstüberwachten Tiefenschätzmodells zu nutzen, um die geometrischen Erscheinungsformen und Verteilungen von Objekten zu bewahren. Unser Modell besteht aus zwei parallelen Autoencoder-Netzwerken: Das erste Netzwerk ist ein Autoencoder, der auf ResNet-50 basiert und Merkmale aus dem Eingabebild extrahiert sowie mittels mehrskaliger GCN die Tiefenkarte schätzt. Das zweite Netzwerk nutzt ResNet-18, um den Eigenbewegungsvektor (d. h. die 3D-Pose) zwischen zwei aufeinanderfolgenden Bildern zu schätzen. Beide geschätzten Größen – die 3D-Pose und die Tiefenkarte – werden verwendet, um ein Zielbild zu konstruieren. Eine Kombination aus Verlustfunktionen, die photometrische, projektorische und Glättungsbedingungen berücksichtigen, wird eingesetzt, um schlechte Tiefenschätzungen zu minimieren und Diskontinuitäten von Objekten zu erhalten. Insbesondere erzielt unsere Methode vergleichbare und vielversprechende Ergebnisse mit einer hohen Vorhersagegenauigkeit von 89 % auf den öffentlich verfügbaren Datensätzen KITTI und Make3D sowie einer Reduktion von 40 % der antrainierbaren Parameter im Vergleich zu den aktuellen Stand der Technik. Der Quellcode ist öffentlich unter https://github.com/ArminMasoumian/GCNDepth.git verfügbar.