HyperAIHyperAI

Command Palette

Search for a command to run...

HiMODE: Ein hybrider monokularer Omnidirektions-Tiefenschätzung-Modell

Masum Shah Junayed Arezoo Sadeghzadeh Md Baharul Islam Lai-Kuan Wong Tarkan Aydin

Zusammenfassung

Monokulare omnidirektionale Tiefenschätzung erlangt aufgrund ihrer breiten Anwendungsmöglichkeiten zur Erfassung von 360°-Umgebungen erhebliche Forschungsinteresse. Bestehende Ansätze in diesem Bereich leiden unter Einschränkungen hinsichtlich der Wiederherstellung feiner Objektdetails sowie dem Verlust von Daten während der Erhebung der Ground-Truth-Tiefenkarten. In diesem Artikel wird ein neuartiges monokulares omnidirektionales Tiefenschätzmodell namens HiMODE vorgestellt, das auf einer hybriden CNN+Transformer-(Encoder-Decoder)-Architektur basiert und deren Module effizient so entworfen ist, dass Verzerrungen und Rechenkosten reduziert werden, ohne dabei die Leistung zu beeinträchtigen. Zunächst entwickeln wir ein Feature-Pyramiden-Netzwerk basierend auf dem HNet-Block, um hochauflösende Merkmale in der Nähe der Bildränder zu extrahieren. Die Leistung wird zusätzlich verbessert durch die Einbindung einer Selbst- und Kreuz-Attention-Schicht sowie räumlicher bzw. zeitlicher Patch-Strukturen im Transformer-Encoder und -Decoder. Zudem wird ein räumlicher Residual-Block eingesetzt, um die Anzahl der Parameter zu verringern. Durch die gleichzeitige Verarbeitung der tiefen Merkmale, die aus jedem Backbone-Block eines Eingabebildes extrahiert werden, zusammen mit den rohen Tiefenkarten, die vom Transformer-Encoder-Decoder vorhergesagt werden, in einer Kontextanpassungsschicht, kann unser Modell Tiefenkarten mit einer besseren visuellen Qualität erzeugen als die Ground-Truth. Umfassende Ablationsstudien belegen die Bedeutung jedes einzelnen Moduls. Ausführliche Experimente an drei Datensätzen – Stanford3D, Matterport3D und SunCG – zeigen, dass HiMODE eine state-of-the-art-Leistung für die 360°-monokulare Tiefenschätzung erzielen kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp