Unsupervised Scale-konsistente Tiefenlernung aus Video

Wir stellen einen monokularen Tiefenschätzer namens SC-Depth vor, der lediglich unbeschriftete Videos zur Ausbildung benötigt und eine skalenkonsistente Vorhersage zur Inference-Zeit ermöglicht. Unsere Beiträge umfassen: (i) die Einführung einer Geometriekonsistenzverlustfunktion, die Inkonsistenzen der vorhergesagten Tiefen zwischen benachbarten Ansichten bestrafft; (ii) die Entwicklung einer selbstentdeckten Maske, die bewegliche Objekte automatisch lokalisiert, welche die Annahme eines statischen Szenenmodells verletzen und während des Trainings zu störenden Signalen führen; (iii) die ausführliche Abstraktionsstudie, die die Wirksamkeit jedes einzelnen Komponenten nachweist, sowie die Darstellung hochwertiger Tiefenschätzergebnisse auf den Datensätzen KITTI und NYUv2. Darüber hinaus zeigen wir aufgrund der Fähigkeit zur skalenkonsistenten Vorhersage, dass unsere monokular trainierten tiefen Netzwerke nahtlos in das ORB-SLAM2-System integriert werden können, um eine robustere und genauere Tracking-Leistung zu erzielen. Der vorgeschlagene hybride Pseudo-RGBD-SLAM-Ansatz erzielt überzeugende Ergebnisse auf KITTI und generalisiert gut auf den KAIST-Datensatz, ohne zusätzliche Ausbildung zu erfordern. Schließlich präsentieren wir mehrere Demonstrationen zur qualitativen Evaluation.