HyperAIHyperAI
vor 11 Tagen

BAEFormer: Bi-Directional and Early Interaction Transformers für die Bird's Eye View-Semantische Segmentierung

{Zhaoxiang Zhang, Wei Sui, Qian Zhang, Junran Peng, Yonghao He, Cong Pan}
BAEFormer: Bi-Directional and Early Interaction Transformers für die Bird's Eye View-Semantische Segmentierung
Abstract

Bird’s Eye View (BEV)-Semantische Segmentierung ist eine zentrale Aufgabe im Bereich des autonomen Fahrens. Herkömmliche Transformer-basierte Ansätze stoßen jedoch auf Schwierigkeiten bei der Transformation von Perspective View (PV) in BEV, da sie auf unidirektionalen und posterioren Interaktionsmechanismen beruhen. Um dieses Problem zu lösen, schlagen wir einen neuartigen bidirektionalen und frühen Interaktions-Transformer namens BAEFormer vor, der aus (i) einer frühen Interaktion zwischen PV und BEV sowie (ii) einem bidirektionalen Kreuz-Attention-Mechanismus besteht. Zudem stellen wir fest, dass die Auflösung der Bilddaten im Kreuz-Attention-Modul nur begrenzten Einfluss auf die endgültige Leistung hat. Aufgrund dieser entscheidenden Beobachtung schlagen wir vor, die Eingabebildgröße zu vergrößern und die mehrperspektivischen Bilddatenfeatures zu downsampeln, um eine effiziente Kreuzinteraktion zu ermöglichen. Dadurch wird die Genauigkeit weiter verbessert, während die Berechnungskosten kontrolliert bleiben. Unser vorgeschlagener Ansatz für die BEV-Semantische Segmentierung erreicht auf dem nuScenes-Datensatz eine state-of-the-art-Leistung bei Echtzeitinferenzgeschwindigkeit: 38,9 mIoU bei 45 FPS auf einer einzigen A100-GPU.

BAEFormer: Bi-Directional and Early Interaction Transformers für die Bird's Eye View-Semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI