3달 전

UniSeg: 통합 다중 모달 LiDAR 세그멘테이션 네트워크 및 OpenPCSeg 코드베이스

Youquan Liu, Runnan Chen, Xin Li, Lingdong Kong, Yuchen Yang, Zhaoyang Xia, Yeqi Bai, Xinge Zhu, Yuexin Ma, Yikang Li, Yu Qiao, Yuenan Hou
UniSeg: 통합 다중 모달 LiDAR 세그멘테이션 네트워크 및 OpenPCSeg 코드베이스
초록

포인트, 복셀, 범위-뷰는 포인트 클라우드의 대표적인 세 가지 형태이다. 이들 모두 정밀한 3D 측정을 제공하지만, 색상 및 질감 정보는 부족하다. RGB 이미지는 이러한 포인트 클라우드 뷰에 자연스럽게 보완되는 정보이며, 이들 정보를 종합적으로 활용하면 더 견고한 인식 성능을 달성할 수 있다. 본 논문에서는 RGB 이미지와 포인트 클라우드의 세 가지 뷰 정보를 활용하는 통합 다중 모달 리다르 세그멘테이션 네트워크인 UniSeg를 제안한다. 이 네트워크는 동시에 세분적 세그멘테이션(sematic segmentation)과 팬오틱 세그멘테이션(panoptic segmentation)을 수행한다. 구체적으로, 먼저 복셀-뷰와 범위-뷰 특징을 이미지 특징과 자동으로 융합할 수 있도록 학습 가능한 다모달 연관성(Learnable cross-Modal Association, LMA) 모듈을 설계한다. 이는 이미지의 � богrich한 의미 정보를 효과적으로 활용하면서 캘리브레이션 오차에 대해 뛰어난 내구성을 제공한다. 이후 강화된 복셀-뷰 및 범위-뷰 특징은 포인트 공간으로 변환되며, 학습 가능한 다뷰 연관성(Learnable cross-View Association, LVA) 모듈을 통해 포인트 클라우드의 세 가지 뷰 특징이 적응적으로 추가로 융합된다. 특히 UniSeg는 SemanticKITTI, nuScenes, Waymo Open Dataset(WOD)의 세 가지 공개 벤치마크에서 뛰어난 성능을 기록하였으며, nuScenes의 LiDAR 세분적 세그멘테이션 챌린지와 SemanticKITTI의 팬오틱 세그멘테이션 챌린지에서 각각 1위를 차지하였다. 또한, 가장 크고 포괄적인 실외 LiDAR 세그멘테이션 코드베이스인 OpenPCSeg를 구축하였다. OpenPCSeg는 주요 실외 LiDAR 세그멘테이션 알고리즘 대부분을 포함하고 있으며, 재현 가능한 구현을 제공한다. OpenPCSeg 코드베이스는 https://github.com/PJLab-ADG/PCSeg에서 공개될 예정이다.