Moving Indoor: Unsupervised Video Depth Learning in Challenging Environments

In jüngster Zeit hat die unsupervisierte Lernmethode zur Tiefenschätzung aus Videos erhebliche Fortschritte gemacht, und die Ergebnisse sind in Außenbereichen wie dem KITTI-Datensatz mit vollständig supervisierten Methoden vergleichbar. Dennoch bestehen erhebliche Herausforderungen bei der direkten Anwendung dieser Technologie in Innenräumen, beispielsweise aufgrund großer, texturloser Bereiche wie weißer Wände, komplexerer Eigenbewegungen einer handgehaltenen Kamera, transparenter Glasflächen und glänzender Objekte. Um diese Probleme zu überwinden, schlagen wir ein neues, auf optischem Fluss basierendes Trainingsparadigma vor, das die Schwierigkeit des unsupervisierten Lernens durch eine klarere Trainingszielsetzung verringert und texturlose Regionen besser bewältigt. Unsere experimentelle Evaluation zeigt, dass das Ergebnis unserer Methode auf dem NYU Depth V2-Benchmark mit vollständig supervisierten Methoden vergleichbar ist. Soweit uns bekannt ist, handelt es sich hierbei um das erste quantitative Ergebnis einer rein unsupervisierten Lernmethode, das auf Innenraum-Datensätzen veröffentlicht wurde.