HyperAIHyperAI
vor 2 Monaten

SAM4D: Segmentiere alles in Kamera- und LiDAR-Datenströmen

Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li
SAM4D: Segmentiere alles in Kamera- und LiDAR-Datenströmen
Abstract

Wir präsentieren SAM4D, ein multimodales und zeitliches Grundmodell, das für die segmentierbaren Aufgaben über Kamerasignale und LiDAR-Datenströme entwickelt wurde. Das Unified Multi-modal Positional Encoding (UMPE) wurde eingeführt, um Kamera- und LiDAR-Features in einem gemeinsamen 3D-Raum zu alignen, was eine nahtlose multimodale Aufforderung und Interaktion ermöglicht. Zudem schlagen wir das Motion-aware Cross-modal Memory Attention (MCMA) vor, das durch die Nutzung von Ego-Bewegungskompensation die zeitliche Konsistenz und die langfristige Feature-Retrieval verbessert, um eine robuste Segmentierung in dynamisch sich verändernden autonomen Fahrzeugszenen zu gewährleisten. Um Annotationsschwierigkeiten zu vermeiden, haben wir einen multimodalen automatisierten Datenprozessor entwickelt, der VFM-gesteuerte Video-Masklets, räumlich-zeitliche 4D-Rekonstruktionen und multimodale Masklet-Fusion synergetisch vereint. Dieses Framework generiert pseudolabels, die Kamera- und LiDAR-Features alignen, mit einer Geschwindigkeit, die um mehrere Größenordnungen schneller ist als manuelle Annotationen, während es gleichzeitig die semantische Treue der Punktewolkenrepräsentationen beibehält. Wir führen umfangreiche Experimente auf dem erstellten Waymo-4DSeg-Datensatz durch, die die leistungsfähige multimodale Segmentierungsfähigkeit sowie das große Potenzial des vorgeschlagenen SAM4D in der Datenaufbereitung zeigen.

SAM4D: Segmentiere alles in Kamera- und LiDAR-Datenströmen | Neueste Forschungsarbeiten | HyperAI