HyperAIHyperAI

Command Palette

Search for a command to run...

OccFormer: Dual-Pfad-Transformer für visionbasierte 3D-Semantik-Besetzungsprognose

Yunpeng Zhang Zheng Zhu* Dalong Du

Zusammenfassung

Die bildbasierte Wahrnehmung für autonomes Fahren hat eine Transformation von den Vogelperspektiv-Darstellungen (Bird-Eye-View, BEV) zu der 3D semantischen Besetztheit durchlaufen. Im Vergleich zu den BEV-Ebenen bietet die 3D semantische Besetztheit zusätzliche strukturelle Informationen in vertikaler Richtung. In dieser Arbeit wird OccFormer vorgestellt, ein Dual-Pfad-Transformer-Netzwerk zur effektiven Verarbeitung des 3D-Volumens für die Vorhersage der semantischen Besetztheit. OccFormer erreicht eine langreichweitige, dynamische und effiziente Kodierung der durch Kameras generierten 3D-Voxelmerkmale. Dies wird durch die Zerlegung der aufwändigen 3D-Verarbeitung in lokale und globale Transformer-Pfade entlang der Horizontalen Ebene erreicht. Für den Besetzungsdekoder passen wir das Standard-Mask2Former an die 3D semantische Besetztheit an, indem wir Preserve-Pooling und class-guided Sampling (klassengesteuertes Sampling) einführen, was die Sparsamkeit und Klassenungleichgewichtigkeit erheblich reduziert. Experimentelle Ergebnisse zeigen, dass OccFormer bestehende Methoden bei der semantischen Szenergenvervollständigung im SemanticKITTI-Datensatz sowie bei der LiDAR-semantischen Segmentierung im nuScenes-Datensatz deutlich übertrifft. Der Code ist unter \url{https://github.com/zhangyp15/OccFormer} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OccFormer: Dual-Pfad-Transformer für visionbasierte 3D-Semantik-Besetzungsprognose | Paper | HyperAI