D-Net: Eine verallgemeinerte und optimierte tiefe Netzwerkarchitektur für die Tiefenschätzung aus einer einzigen Kamera
Die Tiefenschätzung ist eine wesentliche Komponente in Computersystemen zur Erreichung eines 3D-Szenenverständnisses. Effiziente und genaue Schätzung von Tiefenkarten hat zahlreiche Anwendungen, darunter autonome Fahrzeuge und virtuelle Realitätstools. In diesem Artikel wird ein neues tiefes Netzwerk namens D-Net für die Tiefenschätzung aus einem einzigen RGB-Bild vorgestellt. Das vorgeschlagene Netzwerk kann end-to-end trainiert werden, und seine Architektur lässt sich anpassen, um unterschiedliche Anforderungen hinsichtlich Modellgröße, Geschwindigkeit und Vorhersagegenauigkeit zu erfüllen. Unser Ansatz sammelt starke globale und lokale kontextuelle Merkmale auf mehreren Auflösungsebenen und überträgt diese anschließend auf höhere Auflösungen, um klarere Tiefenkarten zu erzeugen. Als Encoder-Backbone kann D-Net verschiedene aktuelle State-of-the-Art-Modelle wie EfficientNet, HRNet und Swin Transformer nutzen, um dichte Tiefenkarten zu generieren. Das vorgeschlagene D-Net ist darauf ausgelegt, möglichst wenige Parameter und eine reduzierte Rechenkomplexität zu besitzen. Umfassende Evaluationen auf den Benchmark-Datensätzen NYUv2 und KITTI zeigen, dass unser Modell bei mehreren Backbones hochgenau ist und bei Kombination mit Swin Transformer und HRNet eine state-of-the-art-Leistung auf beiden Benchmarks erzielt.