3D-PL: Domänenadaptives Tiefenschätzen mit 3D-aware Pseudo-Labeling

Für die monokulare Tiefenschätzung ist die Beschaffung von Ground-Truth-Daten für reale Bilder nicht einfach, weshalb häufig Domänenanpassungsverfahren eingesetzt werden, die auf überwachten synthetischen Daten basieren. Dies kann jedoch weiterhin eine erhebliche Domänenlücke verursachen, da aufgrund des Fehlens von Supervision aus realen Daten keine direkte Anpassung an die tatsächliche Datenverteilung möglich ist. In diesem Artikel entwickeln wir einen Domänenanpassungsrahmen, der zuverlässige Pseudowahrheitswerte der Tiefe aus realen Daten generiert, um eine direkte Supervision zu ermöglichen. Konkret schlagen wir zwei Mechanismen für die Pseudomarkierung vor: 1) 2D-basierte Pseudomarkierungen, die durch die Konsistenz der Tiefenvorhersagen ermittelt werden, wenn Bilder denselben Inhalt, aber unterschiedliche Stile aufweisen; 2) 3D-orientierte Pseudomarkierungen, die mittels eines Punktwolken-Vervollständigungsnetzwerks erzeugt werden, das lernt, Tiefenwerte im 3D-Raum zu ergänzen und somit zusätzliche strukturelle Informationen in einer Szene bereitzustellen, um die Pseudomarkierungen präziser und zuverlässiger zu gestalten. In Experimenten zeigen wir, dass unsere Pseudomarkierungsmethoden die Tiefenschätzung in verschiedenen Szenarien verbessern, einschließlich der Nutzung stereo-paariger Bilder während des Trainings. Zudem erzielt das vorgeschlagene Verfahren gegenüber mehreren state-of-the-art-Verfahren für unsupervisierte Domänenanpassung in realen Datensätzen überzeugende Ergebnisse.