BAEFormer: Bi-Directional and Early Interaction Transformers für die Bird's Eye View-Semantische Segmentierung
{Zhaoxiang Zhang Wei Sui Qian Zhang Junran Peng Yonghao He Cong Pan}

Abstract
Bird’s Eye View (BEV)-Semantische Segmentierung ist eine zentrale Aufgabe im Bereich des autonomen Fahrens. Herkömmliche Transformer-basierte Ansätze stoßen jedoch auf Schwierigkeiten bei der Transformation von Perspective View (PV) in BEV, da sie auf unidirektionalen und posterioren Interaktionsmechanismen beruhen. Um dieses Problem zu lösen, schlagen wir einen neuartigen bidirektionalen und frühen Interaktions-Transformer namens BAEFormer vor, der aus (i) einer frühen Interaktion zwischen PV und BEV sowie (ii) einem bidirektionalen Kreuz-Attention-Mechanismus besteht. Zudem stellen wir fest, dass die Auflösung der Bilddaten im Kreuz-Attention-Modul nur begrenzten Einfluss auf die endgültige Leistung hat. Aufgrund dieser entscheidenden Beobachtung schlagen wir vor, die Eingabebildgröße zu vergrößern und die mehrperspektivischen Bilddatenfeatures zu downsampeln, um eine effiziente Kreuzinteraktion zu ermöglichen. Dadurch wird die Genauigkeit weiter verbessert, während die Berechnungskosten kontrolliert bleiben. Unser vorgeschlagener Ansatz für die BEV-Semantische Segmentierung erreicht auf dem nuScenes-Datensatz eine state-of-the-art-Leistung bei Echtzeitinferenzgeschwindigkeit: 38,9 mIoU bei 45 FPS auf einer einzigen A100-GPU.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| bird-s-eye-view-semantic-segmentation-on | BAEFormer | IoU veh - 224x480 - No vis filter - 100x100 at 0.5: 36 IoU veh - 224x480 - Vis filter. - 100x100 at 0.5: 38.9 IoU veh - 448x800 - No vis filter - 100x100 at 0.5: 37.8 IoU veh - 448x800 - Vis filter. - 100x100 at 0.5: 41.0 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.