DAOcc: 3D-Objekterkennung unterstützte Mehrsensorfusion für 3D-Besetztheitsvorhersage

Die Fusion von mehreren Sensoren verbessert die Genauigkeit und Robustheit der 3D semantischen Besetzungsprognose erheblich, was für autonomes Fahren und Robotik von entscheidender Bedeutung ist. Die meisten existierenden Ansätze hingegen basieren auf großen Bildauflösungen und komplexen Netzwerken, um Spitzenleistungen zu erzielen, was ihre Anwendung in praktischen Szenarien erschwert. Zudem konzentrieren sich die meisten Ansätze zur Fusion von mehreren Sensoren darauf, die Fusionseigenschaften zu verbessern, während sie die Erkundung von Überwachungsstrategien für diese Eigenschaften vernachlässigen. Um dies anzugehen, schlagen wir DAOcc vor, einen neuen multimodalen Besetzungsprognoseframework, das 3D-Objekterkennungsüberwachung nutzt, um eine überlegene Leistung zu erreichen. Dabei verwenden wir ein im Einsatz geeignetes Bildmerkmalsextraktionsnetzwerk und eine praktische Eingangsbildauflösung. Darüber hinaus führen wir eine Strategie zur Erweiterung des BEV-Blickfelds (BEV View Range Extension) ein, um die negativen Auswirkungen einer reduzierten Bildauflösung abzumildern. Experimentelle Ergebnisse zeigen, dass DAOcc neue Standarts auf den Benchmarks Occ3D-nuScenes und SurroundOcc erreicht und andere Methoden bei Verwendung nur eines ResNet50 und einer Eingangsbildauflösung von 256*704 deutlich übertrifft. Der Quellcode wird unter https://github.com/AlphaPlusTT/DAOcc verfügbar gemacht.