MonoIndoor: Hin zu Best Practices der selbstüberwachten monokularen Tiefenschätzung für Innenräume

Die selbstüberwachte Tiefenschätzung für Innenräume ist mindestens in zwei Aspekten herausfordernder als ihre Außenraum-Entsprechung: (i) Der Tiefenbereich in Innenraumsequenzen variiert erheblich zwischen verschiedenen Bildern, was es dem Tiefennetzwerk erschwert, konsistente Tiefeninformationen zu erlernen, während der maximale Abstand in Außenräumen meist stabil bleibt, da die Kamera typischerweise in den Himmel blickt; (ii) Innenraumsequenzen enthalten deutlich mehr rotationsreiche Bewegungen, was die Pose-Netzwerke vor Schwierigkeiten stellt, während die Bewegungen in Außenraumsequenzen überwiegend translationsartig sind, insbesondere bei Fahrdatensätzen wie KITTI. In diesem Artikel werden diese Herausforderungen speziell berücksichtigt, und eine Reihe bewährter Praktiken wird zusammengefasst, um die Leistung der selbstüberwachten monokularen Tiefenschätzung in Innenräumen zu verbessern. Der vorgeschlagene Ansatz besteht hauptsächlich aus zwei neuartigen Modulen, nämlich einem Tiefenfaktorisierungsmodul und einem Residual-Pose-Schätzmodul, wobei jedes Modul gezielt eine der oben genannten Herausforderungen adressiert. Die Wirksamkeit jedes Moduls wird durch eine sorgfältig durchgeführte Ablationsstudie nachgewiesen, sowie durch die Demonstration der Stand-der-Technik-Leistung auf drei Innenraum-Datensätzen, nämlich EuRoC, NYUv2 und 7-scenes.