StructDepth: Nutzung struktureller Regularitäten für selbstüberwachtes Tiefenschätzen im Innenraum

Die selbstüberwachte Tiefenschätzung mit einer einzigen Kamera hat beeindruckende Leistung auf Outdoor-Datensätzen erzielt. Ihre Genauigkeit nimmt jedoch in Innenräumen deutlich ab, da dort oft wenig Textur vorhanden ist. Ohne reichhaltige Texturen ist die photometrische Konsistenz zu schwach, um ein gut funktionierendes Tiefennetz zu trainieren. Inspiriert durch frühere Arbeiten zur Innenraummodellierung nutzen wir die strukturellen Regularitäten, die in Innenräumen typischerweise auftreten, um ein besseres Tiefennetz zu trainieren. Konkret führen wir zwei zusätzliche überwachende Signale für den selbstüberwachten Trainingsprozess ein: 1) die Manhattan-Normalen-Beschränkung und 2) die koplanare Beschränkung. Die Manhattan-Normalen-Beschränkung erzwingt, dass die Hauptflächen (Boden, Decke und Wände) mit den dominanten Raumrichtungen ausgerichtet sind. Die koplanare Beschränkung besagt, dass 3D-Punkte gut durch eine Ebene approximiert werden können, wenn sie sich innerhalb derselben ebenen Region befinden. Um diese überwachenden Signale zu generieren, integrieren wir zwei Komponenten, die während des Trainings dynamisch die Hauptflächennormalen in dominante Richtungen klassifizieren und ebenen Regionen erkennen. Da die geschätzte Tiefe mit zunehmenden Trainingszyklen präziser wird, verbessern sich auch die überwachenden Signale und wirken rückgekoppelt, um ein noch besseres Tiefennetz zu erzeugen. Ausführliche Experimente auf standardisierten Innenraum-Datensätzen zeigen, dass unser Netzwerk die derzeit besten Ansätze übertrifft. Der Quellcode ist unter https://github.com/SJTU-ViSYS/StructDepth verfügbar.