HiMODE: Ein hybrider monokularer Omnidirektions-Tiefenschätzung-Modell

Monokulare omnidirektionale Tiefenschätzung erlangt aufgrund ihrer breiten Anwendungsmöglichkeiten zur Erfassung von 360°-Umgebungen erhebliche Forschungsinteresse. Bestehende Ansätze in diesem Bereich leiden unter Einschränkungen hinsichtlich der Wiederherstellung feiner Objektdetails sowie dem Verlust von Daten während der Erhebung der Ground-Truth-Tiefenkarten. In diesem Artikel wird ein neuartiges monokulares omnidirektionales Tiefenschätzmodell namens HiMODE vorgestellt, das auf einer hybriden CNN+Transformer-(Encoder-Decoder)-Architektur basiert und deren Module effizient so entworfen ist, dass Verzerrungen und Rechenkosten reduziert werden, ohne dabei die Leistung zu beeinträchtigen. Zunächst entwickeln wir ein Feature-Pyramiden-Netzwerk basierend auf dem HNet-Block, um hochauflösende Merkmale in der Nähe der Bildränder zu extrahieren. Die Leistung wird zusätzlich verbessert durch die Einbindung einer Selbst- und Kreuz-Attention-Schicht sowie räumlicher bzw. zeitlicher Patch-Strukturen im Transformer-Encoder und -Decoder. Zudem wird ein räumlicher Residual-Block eingesetzt, um die Anzahl der Parameter zu verringern. Durch die gleichzeitige Verarbeitung der tiefen Merkmale, die aus jedem Backbone-Block eines Eingabebildes extrahiert werden, zusammen mit den rohen Tiefenkarten, die vom Transformer-Encoder-Decoder vorhergesagt werden, in einer Kontextanpassungsschicht, kann unser Modell Tiefenkarten mit einer besseren visuellen Qualität erzeugen als die Ground-Truth. Umfassende Ablationsstudien belegen die Bedeutung jedes einzelnen Moduls. Ausführliche Experimente an drei Datensätzen – Stanford3D, Matterport3D und SunCG – zeigen, dass HiMODE eine state-of-the-art-Leistung für die 360°-monokulare Tiefenschätzung erzielen kann.