GEDepth: Ground Embedding für die Tiefenschätzung aus einer einzigen Kamera

Die monokulare Tiefenschätzung ist ein schlecht gestelltes Problem, da ein und dasselbe 2D-Bild von unendlich vielen 3D-Szenen projiziert werden kann. Obwohl die führenden Algorithmen in diesem Bereich erhebliche Fortschritte erzielt haben, sind sie im Wesentlichen auf eine spezifische Kombination aus bildlichen Beobachtungen und Kameraparametern (d. h. Intrinsika und Extrinsika) zugeschnitten, was ihre Verallgemeinerungsfähigkeit in realen Szenarien erheblich einschränkt. Um dieser Herausforderung zu begegnen, schlägt dieser Artikel ein neuartiges Boden-Einbettungsmodul vor, das Kameraparameter von bildlichen Hinweisen entkoppelt und somit die Verallgemeinerungsfähigkeit verbessert. Gegeben die Kameraparameter erzeugt das vorgeschlagene Modul die Bodentiefe, die mit dem Eingabebild gestapelt und im finalen Tiefenprädiktionsprozess referenziert wird. Innerhalb des Moduls wurde ein Boden-Attention-Mechanismus entworfen, um die Bodentiefe optimal mit der verbleibenden Tiefe zu kombinieren. Unser Boden-Einbettungsansatz ist äußerst flexibel und leichtgewichtig, wodurch ein plug-in-fähiges Modul entsteht, das problemlos in verschiedene Tiefenschätzungssysteme integriert werden kann. Experimente zeigen, dass unsere Methode auf gängigen Benchmarks Ergebnisse auf dem Stand der Technik erzielt und vor allem eine signifikante Verbesserung der Verallgemeinerungsfähigkeit bei einer Vielzahl von Cross-Domain-Tests aufweist.