HyperAIHyperAI
vor 2 Monaten

OccFormer: Dual-Pfad-Transformer für visionbasierte 3D-Semantik-Besetzungsprognose

Zhang, Yunpeng ; Zhu, Zheng ; Du, Dalong
OccFormer: Dual-Pfad-Transformer für visionbasierte 3D-Semantik-Besetzungsprognose
Abstract

Die bildbasierte Wahrnehmung für autonomes Fahren hat eine Transformation von den Vogelperspektiv-Darstellungen (Bird-Eye-View, BEV) zu der 3D semantischen Besetztheit durchlaufen. Im Vergleich zu den BEV-Ebenen bietet die 3D semantische Besetztheit zusätzliche strukturelle Informationen in vertikaler Richtung. In dieser Arbeit wird OccFormer vorgestellt, ein Dual-Pfad-Transformer-Netzwerk zur effektiven Verarbeitung des 3D-Volumens für die Vorhersage der semantischen Besetztheit. OccFormer erreicht eine langreichweitige, dynamische und effiziente Kodierung der durch Kameras generierten 3D-Voxelmerkmale. Dies wird durch die Zerlegung der aufwändigen 3D-Verarbeitung in lokale und globale Transformer-Pfade entlang der Horizontalen Ebene erreicht. Für den Besetzungsdekoder passen wir das Standard-Mask2Former an die 3D semantische Besetztheit an, indem wir Preserve-Pooling und class-guided Sampling (klassengesteuertes Sampling) einführen, was die Sparsamkeit und Klassenungleichgewichtigkeit erheblich reduziert. Experimentelle Ergebnisse zeigen, dass OccFormer bestehende Methoden bei der semantischen Szenergenvervollständigung im SemanticKITTI-Datensatz sowie bei der LiDAR-semantischen Segmentierung im nuScenes-Datensatz deutlich übertrifft. Der Code ist unter \url{https://github.com/zhangyp15/OccFormer} verfügbar.

OccFormer: Dual-Pfad-Transformer für visionbasierte 3D-Semantik-Besetzungsprognose | Neueste Forschungsarbeiten | HyperAI