HyperAIHyperAI
vor 13 Tagen

MonoUNI: Ein einheitliches monokulares 3D-Objekterkennungsnetzwerk für Fahrzeuge und Infrastruktur mit ausreichenden Tiefeninformationen

MonoUNI: Ein einheitliches monokulares 3D-Objekterkennungsnetzwerk für Fahrzeuge und Infrastruktur mit ausreichenden Tiefeninformationen
Abstract

Die monokulare 3D-Detektion von Fahrzeugen und Infrastruktur stellt zwei zentrale Themen im Bereich des autonomen Fahrens dar. Aufgrund der Vielfalt an Sensorinstallationen und Brennweiten stehen Forscher vor der Herausforderung, Algorithmen für diese beiden Bereiche auf Basis unterschiedlicher Vorwissen zu entwickeln. In diesem Artikel schlagen wir aufgrund der Vielfalt von Neigungswinkeln und Brennweiten ein einheitliches Optimierungsziel vor, das wir „normalisierte Tiefe“ nennen, welches die Vereinheitlichung der 3D-Detektionsaufgaben für beide Bereiche ermöglicht. Darüber hinaus wird zur Verbesserung der Genauigkeit der monokularen 3D-Detektion ein neuer Ansatz, die 3D-normalisierte Würfeltiefe von Hindernissen, eingeführt, um das Lernen von Tiefeninformationen zu fördern. Wir vermuten, dass die Reichhaltigkeit von Tiefeninformationen ein entscheidender Faktor für die Detektionsleistung sowohl auf Fahrzeug- als auch auf Infrastrukturseite ist. Eine reichhaltigere Menge an Tiefenclues ermöglicht es dem Modell, besseres räumliches Wissen zu erlernen, wobei die 3D-normalisierte Würfeltiefe ausreichend Tiefenclues bereitstellt. Umfangreiche Experimente belegen die Wirksamkeit unseres Ansatzes. Ohne zusätzliche Informationen zu nutzen, erreicht unsere Methode, die als MonoUNI bezeichnet wird, state-of-the-art-Leistungen auf fünf weit verbreiteten monokularen 3D-Detektionsbenchmarks, darunter Rope3D und DAIR-V2X-I für die Infrastrukturseite, KITTI und Waymo für die Fahrzeugseite sowie nuScenes für die cross-dataset-Evaluation.