M3D-RPN: Monokulare 3D-Regionen-Vorschlags-Netzwerk für Objekterkennung

Das Verständnis der Welt in 3D ist ein entscheidendes Element des städtischen autonomen Fahrens. Im Allgemeinen war die Kombination teurer LiDAR-Sensoren und stereoskopischer RGB-Bildgebung für erfolgreiche 3D-Objekterkennungsalgorithmen von zentraler Bedeutung, während Methoden, die nur monokulare Bilder verwenden, eine erheblich verminderte Leistung aufweisen. Wir schlagen vor, diese Lücke zu verringern, indem wir das Problem der monokularen 3D-Erkennung als eigenständiges 3D-Region Proposal Network (RPN) umformulieren. Wir nutzen das geometrische Verhältnis zwischen 2D- und 3D-Perspektiven, wodurch 3D-Boxen leistungsstarke und bekannte Faltungseigenschaften im Bildraum nutzen können. Um den anspruchsvollen Schätzungen von 3D-Parametern entgegenzukommen, entwickeln wir zudem tiefenbewusste Faltungsschichten, die die Entwicklung ortsspezifischer Eigenschaften ermöglichen und somit eine verbesserte 3D-Szenenerkennung zur Folge haben. Im Vergleich zu früheren Arbeiten im Bereich der monokularen 3D-Erkennung besteht unsere Methode ausschließlich aus dem vorgeschlagenen 3D-Region Proposal Network, anstatt auf externe Netzwerke, Daten oder mehrere Stufen angewiesen zu sein. M3D-RPN kann die Leistung sowohl bei der monokularen 3D-Objekterkennung als auch bei der Vogelperspektive-Aufgabe innerhalb des KITTI-Datensatzes für städtisches autonomes Fahren erheblich verbessern und dabei effizient ein geteiltes Multi-Klassen-Modell nutzen.