SA-BEV: Generierung semantikbewusster Bird’s-Eye-View-Feature für die Multiview-3D-Objekterkennung

Kürzlich bietet die reine kamerabasierte Bird’s-Eye-View (BEV)-Perzeption eine praktikable Lösung für kostengünstiges autonomes Fahren. Allerdings transformieren bestehende BEV-basierte Multi-View-3D-Detektoren im Allgemeinen alle Bildmerkmale in BEV-Merkmale, ohne die Herausforderung zu berücksichtigen, dass ein großer Anteil an Hintergrundinformationen die Objektinformationen überlagern kann. In diesem Artikel stellen wir Semantic-Aware BEV Pooling (SA-BEVPool) vor, das Hintergrundinformationen anhand der semantischen Segmentierung der Bildmerkmale filtern und die Bildmerkmale in semantikbewusste BEV-Merkmale transformieren kann. Dementsprechend entwickeln wir BEV-Paste, eine effektive Datenverstärkungsstrategie, die eng mit den semantikbewussten BEV-Merkmale kompatibel ist. Zudem entwerfen wir einen Multi-Scale Cross-Task (MSCT)-Head, der spezifische Aufgabeninformationen mit übergeordneten Aufgabeninformationen kombiniert, um die Vorhersage der Tiefenverteilung und der semantischen Segmentierung präziser zu gestalten und somit die Qualität der semantikbewussten BEV-Merkmale weiter zu verbessern. Schließlich integrieren wir die oben genannten Module in einen neuartigen Multi-View-3D-Objektdetektionsrahmen namens SA-BEV. Experimente auf dem nuScenes-Datensatz zeigen, dass SA-BEV die derzeit beste Leistung erzielt. Der Quellcode ist unter https://github.com/mengtan00/SA-BEV.git verfügbar.