Verbesserung der selbstüberwachten Tiefenschätzung aus einer einzigen Sicht durch Maskierung von Oclusionen
Einzelbild-Tiefenschätzungsmodelle können unter Verwendung eines selbstüberwachten, end-to-end Ansatzes mit der Szenenrekonstruktion als Überwachungssignal aus Videomaterial trainiert werden. Dies wird durch ein Framework erreicht, das Tiefen und Kamerasbewegungen vorhersagt, wobei der Verlust auf der Rekonstruktion eines Zielvideobilds aus zeitlich benachbarten Bildern basiert. Im Kontext dieser Methode bezieht sich die Okkusion auf Teile einer Szene, die im Zielbild sichtbar sind, aber nicht in einem Bild verwendet werden, das für die Bildrekonstruktion dient. Da die Bildrekonstruktion auf dem Abtasten von benachbarten Bildern basiert und okkulierte Bereiche per Definition nicht abgetastet werden können, führen rekonstruierte okkulierte Bereiche zu einer Verfälschung des Überwachungssignals. In früherer Arbeit (arXiv:1806.01260) wird die Okkusion anhand des Rekonstruktionsfehlers behandelt; an jeder Pixelposition wird nur die Rekonstruktion mit dem geringsten Fehler in den Verlust einbezogen. Die aktuelle Studie zielt darauf ab, zu ermitteln, ob durch das Ignorieren von Regionen während des Trainings, die durch Okkusion betroffen sind, Leistungsverbesserungen bei Tiefenschätzungsmodellen erzielt werden können.In dieser Arbeit führen wir eine Okklusionsmaske ein, eine Maske, die während des Trainings speziell dazu dient, Regionen zu ignorieren, die aufgrund von Okkusionen nicht rekonstruiert werden können. Die Okklusionsmaske basiert vollständig auf vorhergesagten Tiefendaten. Wir stellen zwei neue Verlustfunktionen vor, die die Okklusionsmaske integrieren. Die Methode und Implementierung von arXiv:1806.01260 bilden sowohl die Grundlage für unsere Modifikationen als auch den Baseline in unseren Experimenten. Wir zeigen (i) dass die Integration der Okklusionsmaske in die Verlustfunktion die Leistung von Einzelbild-Tiefenschätzungsmodellen auf dem KITTI-Benchmark verbessert. (ii) dass Verlustfunktionen, die anhand des Fehlers zwischen Rekonstruktionen auswählen, in der Lage sind, einen Teil des Reprojektionsfehlers zu ignorieren, der durch Objektbewegungen verursacht wird.