SAM4D : Segmenter Tout dans les Flux Caméra et LiDAR

Nous présentons SAM4D, un modèle fondamental multi-modale et temporel conçu pour la segmentation commandée par des prompts à travers les flux de caméra et de LiDAR. Une encodage positionnel multi-modale unifié (UMPE) est introduit pour aligner les caractéristiques de caméra et de LiDAR dans un espace 3D partagé, permettant une interaction et une commande croisée fluide entre les modes. De plus, nous proposons une attention mémoire croisée sensible au mouvement (MCMA), qui utilise la compensation du mouvement égocentrique pour améliorer la cohérence temporelle et la récupération de caractéristiques sur le long terme, garantissant ainsi une segmentation robuste dans des scènes d'automatisation de conduite en constante évolution. Pour éviter les goulets d'étranglement liés à l'annotation manuelle, nous avons développé un moteur de données automatisé multi-modale qui synergie les masquettes vidéo pilotées par VFM, la reconstruction spatiotemporelle 4D et la fusion croisée des masquettes. Ce cadre génère des pseudo-étiquettes alignées caméra-LiDAR à une vitesse plusieurs ordres de grandeur supérieure à celle de l'annotation humaine tout en préservant la fidélité sémantique dérivée du VFM dans les représentations nuage de points. Nous menons des expériences approfondies sur le Waymo-4DSeg construit, qui démontrent la puissante capacité de segmentation croisée et le grand potentiel en matière d'annotation de données du SAM4D proposé.