HyperAIHyperAI
vor 3 Monaten

CamLessMonoDepth: Monokulare Tiefenschätzung mit unbekannten Kameraparametern

Sai Shyam Chanduri, Zeeshan Khan Suri, Igor Vozniak, Christian Müller
CamLessMonoDepth: Monokulare Tiefenschätzung mit unbekannten Kameraparametern
Abstract

Die Wahrnehmung von 3D-Informationen ist für zahlreiche Anwendungen im Bereich des Computer Vision von entscheidender Bedeutung. Neuere Fortschritte in der monokularen Tiefenschätzung haben gezeigt, dass es möglich ist, solche Erkenntnisse aus einem einzigen Kamerasignal zu gewinnen, indem tiefe neuronale Netze trainiert werden, um die inverse Tiefe und die Pose vorherzusagen, ohne dass Ground-Truth-Daten erforderlich sind. Die Mehrheit dieser Ansätze erfordert jedoch, dass während des Trainings explizit Kameraparameter bereitgestellt werden. Dadurch können Bildsequenzen aus natürlicher Umgebung („wild“) während des Trainings nicht verwendet werden. Obwohl es Methoden gibt, die auch die Kameraintrinsika vorhersagen, erreichen deren Leistungswerte bisher nicht das Niveau neuerer Ansätze, die Kameraparameter als Eingabe verwenden. In dieser Arbeit stellen wir eine Methode zur impliziten Schätzung der intrinsischen Parameter einer Lochkamera gemeinsam mit Tiefe und Pose vor, die ausschließlich auf monokularen Bildsequenzen basiert. Zudem zeigen wir mithilfe effizienter Subpixel-Konvolutionen, dass hochauflösende und qualitativ hochwertige Tiefenschätzungen erzielt werden können. Außerdem integrieren wir eine pixelweise Unsicherheitsschätzung in das Framework, um die mögliche Anwendbarkeit der Methode in praktischen Anwendungsfällen hervorzuheben. Schließlich demonstrieren wir die Möglichkeit, mit hoher Genauigkeit Tiefeninformationen vorherzusagen, ohne vorherige Kenntnis der Kameraintrinsika zu besitzen, wobei unsere Methode die bestehenden State-of-the-Art-Ansätze auf dem KITTI-Benchmark übertrifft.