HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

BAEFormer: Bi-Directional and Early Interaction Transformers für die Bird's Eye View-Semantische Segmentierung

{Zhaoxiang Zhang Wei Sui Qian Zhang Junran Peng Yonghao He Cong Pan}

BAEFormer: Bi-Directional and Early Interaction Transformers für die Bird's Eye View-Semantische Segmentierung

Abstract

Bird’s Eye View (BEV)-Semantische Segmentierung ist eine zentrale Aufgabe im Bereich des autonomen Fahrens. Herkömmliche Transformer-basierte Ansätze stoßen jedoch auf Schwierigkeiten bei der Transformation von Perspective View (PV) in BEV, da sie auf unidirektionalen und posterioren Interaktionsmechanismen beruhen. Um dieses Problem zu lösen, schlagen wir einen neuartigen bidirektionalen und frühen Interaktions-Transformer namens BAEFormer vor, der aus (i) einer frühen Interaktion zwischen PV und BEV sowie (ii) einem bidirektionalen Kreuz-Attention-Mechanismus besteht. Zudem stellen wir fest, dass die Auflösung der Bilddaten im Kreuz-Attention-Modul nur begrenzten Einfluss auf die endgültige Leistung hat. Aufgrund dieser entscheidenden Beobachtung schlagen wir vor, die Eingabebildgröße zu vergrößern und die mehrperspektivischen Bilddatenfeatures zu downsampeln, um eine effiziente Kreuzinteraktion zu ermöglichen. Dadurch wird die Genauigkeit weiter verbessert, während die Berechnungskosten kontrolliert bleiben. Unser vorgeschlagener Ansatz für die BEV-Semantische Segmentierung erreicht auf dem nuScenes-Datensatz eine state-of-the-art-Leistung bei Echtzeitinferenzgeschwindigkeit: 38,9 mIoU bei 45 FPS auf einer einzigen A100-GPU.

Benchmarks

BenchmarkMethodikMetriken
bird-s-eye-view-semantic-segmentation-onBAEFormer
IoU veh - 224x480 - No vis filter - 100x100 at 0.5: 36
IoU veh - 224x480 - Vis filter. - 100x100 at 0.5: 38.9
IoU veh - 448x800 - No vis filter - 100x100 at 0.5: 37.8
IoU veh - 448x800 - Vis filter. - 100x100 at 0.5: 41.0

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BAEFormer: Bi-Directional and Early Interaction Transformers für die Bird's Eye View-Semantische Segmentierung | Forschungsarbeiten | HyperAI