Ein adversarisch generatives Netzwerk für die Hochauflösende monokulare Tiefenschätzung aus 2D-HiRISE-Bildern von Mars
In der Computer Vision ermöglicht die Stereoskopie die dreidimensionale Rekonstruktion einer Szene mithilfe zweier zweidimensionaler Bilder, die aus leicht unterschiedlichen Betrachtungspunkten aufgenommen wurden, um räumliche Informationen über die Tiefe der Szene in Form einer Disparitätskarte zu extrahieren. In der Stereophotogrammetrie ist die Disparitätskarte entscheidend für die Ableitung des digitalen Geländemodells (DTM) und somit für die Erzeugung einer 3D-Raumdarstellung, die für eine präzisere Analyse planetarer Oberflächen unerlässlich ist. Allerdings kann der gesamte Rekonstruktionsprozess, der mittels Stereo-Abgleichalgorithmen durchgeführt wird, zeitaufwendig sein und zahlreiche Artefakte erzeugen. In Verbindung mit unzureichender Stereoabdeckung kann dies eine erhebliche Hürde für die 3D-Kartierung planetarer Oberflächen darstellen. In jüngster Zeit wurden zahlreiche tiefe Lernarchitekturen für die monokulare Tiefenschätzung vorgeschlagen, die darauf abzielen, die dritte Dimension aus einem einzigen 2D-Bild vorherzusagen. Diese Ansätze bieten erhebliche Vorteile durch Vereinfachung des Rekonstruktionsproblems und haben somit ein starkes Interesse an tiefen Modellen zur Generierung von Super-Resolution-Bildern und zur DTM-Schätzung geweckt. In diesem Beitrag kombinieren wir diese beiden Konzepte in einem einzigen end-to-end-Modell und stellen eine neue Lösung basierend auf einem generativen adversarialen Netzwerk vor, das das DTM mit vierfacher Auflösung aus einem einzigen monokularen Bild schätzt und als SRDiNet (Super-Resolution Depth Image Network) bezeichnet wird. Darüber hinaus führen wir ein Unter-Netzwerk ein, das eine Nachbearbeitung mittels interpolierter Eingabebilder anwendet, um die Feinheiten des Endprodukts weiter zu verbessern. Die Wirksamkeit dieser Verbesserung wird durch drei verschiedene Varianten des Ansatzes demonstriert: SRDiNet mit GAN-Ansatz, SRDiNet ohne adversariales Netzwerk sowie SRDiNet ohne das verfeinerte Lernnetzwerk, jedoch mit GAN-Ansatz. Die Ergebnisse für Oxia Planum (den Landeplatz des ExoMars-Rovers Rosalind Franklin der Europäischen Weltraumorganisation, 2023) werden vorgestellt, wobei das beste Modell auf allen Oxia Planum-Tiles angewendet und ein 3D-Produkt mit vierfacher Auflösungsextension veröffentlicht wird.