BAEFormer: Bi-Directional and Early Interaction Transformers für die Bird's Eye View-Semantische Segmentierung

Bird’s Eye View (BEV)-Semantische Segmentierung ist eine zentrale Aufgabe im Bereich des autonomen Fahrens. Herkömmliche Transformer-basierte Ansätze stoßen jedoch auf Schwierigkeiten bei der Transformation von Perspective View (PV) in BEV, da sie auf unidirektionalen und posterioren Interaktionsmechanismen beruhen. Um dieses Problem zu lösen, schlagen wir einen neuartigen bidirektionalen und frühen Interaktions-Transformer namens BAEFormer vor, der aus (i) einer frühen Interaktion zwischen PV und BEV sowie (ii) einem bidirektionalen Kreuz-Attention-Mechanismus besteht. Zudem stellen wir fest, dass die Auflösung der Bilddaten im Kreuz-Attention-Modul nur begrenzten Einfluss auf die endgültige Leistung hat. Aufgrund dieser entscheidenden Beobachtung schlagen wir vor, die Eingabebildgröße zu vergrößern und die mehrperspektivischen Bilddatenfeatures zu downsampeln, um eine effiziente Kreuzinteraktion zu ermöglichen. Dadurch wird die Genauigkeit weiter verbessert, während die Berechnungskosten kontrolliert bleiben. Unser vorgeschlagener Ansatz für die BEV-Semantische Segmentierung erreicht auf dem nuScenes-Datensatz eine state-of-the-art-Leistung bei Echtzeitinferenzgeschwindigkeit: 38,9 mIoU bei 45 FPS auf einer einzigen A100-GPU.