HyperAIHyperAI
vor 16 Tagen

Globale-lokale Pfad-Netzwerke für die Tiefenschätzung aus einer einzigen Ansicht mit vertikaler Schnitttiefe

Doyeon Kim, Woonghyun Ka, Pyungwhan Ahn, Donggyu Joo, Sehwan Chun, Junmo Kim
Globale-lokale Pfad-Netzwerke für die Tiefenschätzung aus einer einzigen Ansicht mit vertikaler Schnitttiefe
Abstract

Die Schätzung der Tiefe aus einer einzigen Bildaufnahme ist eine zentrale Aufgabe, die in verschiedenen Bereichen der Computer Vision Anwendung finden kann und sich mit der Entwicklung von Faltungsneuralen Netzen rasant weiterentwickelt hat. In diesem Artikel stellen wir eine neuartige Architektur und Trainingsstrategie für die monokulare Tiefeinschätzung vor, um die Vorhersagegenauigkeit des Netzwerks weiter zu verbessern. Wir setzen einen hierarchischen Transformer-Encoder ein, um globale Kontextinformationen effektiv zu erfassen und zu übertragen, und entwerfen einen leichtgewichtigen, jedoch leistungsstarken Decoder, der die lokale Struktur berücksichtigt, um eine geschätzte Tiefenkarte zu generieren. Durch den Aufbau verbundener Pfade zwischen mehrskaligen lokalen Merkmalen und dem globalen Dekodierstrom mittels unseres vorgeschlagenen selektiven Merkmalsfusionsmoduls kann das Netzwerk beide Repräsentationen integrieren und feine Details rekonstruieren. Zudem zeigt der vorgeschlagene Decoder eine bessere Leistung als bisherige Dekodierarchitekturen, wobei die berechnungsmäßige Komplexität deutlich geringer ist. Darüber hinaus verbessern wir die tiefenspezifische Augmentierungsmethode durch eine wichtige Beobachtung im Bereich der Tiefenschätzung, um die Modellleistung weiter zu steigern. Unser Netzwerk erreicht eine state-of-the-art-Leistung auf dem anspruchsvollen Tiefendatensatz NYU Depth V2. Umfangreiche Experimente wurden durchgeführt, um die Wirksamkeit des vorgeschlagenen Ansatzes zu validieren und zu demonstrieren. Schließlich zeigt unser Modell eine bessere Generalisierbarkeit und Robustheit gegenüber anderen vergleichbaren Modellen.

Globale-lokale Pfad-Netzwerke für die Tiefenschätzung aus einer einzigen Ansicht mit vertikaler Schnitttiefe | Neueste Forschungsarbeiten | HyperAI