2달 전
SAM4D: 카메라 및 LiDAR 스트림에서 모든 것을 세그멘테이션하기
Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li

초록
우리는 카메라와 LiDAR 스트림 간의 프롬프트 가능한 세그멘테이션을 위해 설계된 다중 모달 및 시차 기반 모델인 SAM4D를 소개합니다. 공유 3D 공간에서 카메라와 LiDAR 특성을 정렬하기 위해 통합 다중 모달 위치 인코딩(UMPE)이 제안되었습니다. 이는 원활한 모달 간 프롬프팅과 상호작용을 가능하게 합니다. 또한, 자기 운동 보정을 활용하여 시간적 일관성과 장기적인 특성 검색을 강화하는 동작 인식 크로스 모달 메모리 어텐션(MCMA)을 제안합니다. 이를 통해 동적으로 변화하는 자율 주행 장면에서 견고한 세그멘테이션이 가능해집니다.주석 작업의 병목 현상을 피하기 위해, 우리는 VFM(Video Frame Masking)-주도 비디오 마스크렛, 시공간 4D 재구성, 그리고 크로스 모달 마스크렛 융합을 결합한 다중 모달 자동 데이터 엔진을 개발했습니다. 이 프레임워크는 인간 주석보다 수십 배 빠른 속도로 카메라-LiDAR 정렬 가상 라벨을 생성하면서 포인트 클라우드 표현에서 VFM 유래 의미론적 충실성을 유지합니다. Waymo-4DSeg를 구축하여 수행한 광범위한 실험은 제안된 SAM4D의 강력한 크로스 모달 세그멘테이션 능력과 데이터 주석 분야에서의 큰 잠재력을 입증하였습니다.