18일 전

포지션 가이드 포인트 클라우드 판토피크 세그멘테이션 트랜스포머

Zeqi Xiao, Wenwei Zhang, Tai Wang, Chen Change Loy, Dahua Lin, Jiangmiao Pang
포지션 가이드 포인트 클라우드 판토피크 세그멘테이션 트랜스포머
초록

DEtection TRansformer(DETR)는 통합적인 시각 인식을 위해 학습 가능한 쿼리 집합을 사용하는 트렌드를 시작하였다. 본 연구는 이 매력적인 패러다임을 LiDAR 기반 포인트 클라우드 분할에 적용하여 단순하면서도 효과적인 베이스라인을 도출한다. 비록 단순한 적응 방식은 적절한 성능을 보이지만, 인스턴스 분할 성능은 기존 연구들에 비해 뚜렷하게 열등하다는 점을 확인할 수 있다. 세부 사항을 분석한 결과, 희소한 포인트 클라우드 내 인스턴스는 전체 시나리오에 비해 상대적으로 작으며, 기하학적 형태는 유사하지만 분할을 위한 특징적인 외형 정보가 부족한 경우가 흔하다는 점을 발견하였다. 이러한 특성은 이미지 영역에서는 드문 현상이다. 3D 공간에서 인스턴스는 위치 정보에 더 크게 의존한다는 점을 고려하여, 모델링 과정에서 위치 정보의 중요성을 강조하고, 강건한 혼합 매개변수화된 위치 임베딩(Mixed-parameterized Positional Embedding, MPE)을 설계하였다. 이 MPE는 백본 특징에 통합되어 이후 마스크 예측 및 쿼리 업데이트 과정을 반복적으로 안내함으로써, 위치 인지 분할(Position-Aware Segmentation, PA-Seg)과 마스킹된 포칼 주의(Masked Focal Attention, MFA)를 실현한다. 이러한 설계들은 쿼리가 특정 영역에 집중하고 다양한 인스턴스를 식별하도록 유도한다. 본 연구에서 제안한 방법은 '위치 지도형 포인트 클라우드 팔라티픽 분할 트랜스포머(P3Former)'로 명명되며, SemanticKITTI 및 nuScenes 벤치마크에서 각각 3.4%, 1.2%의 PQ 점수 향상을 기록하며 기존 최고 성능 모델들을 능가한다. 소스 코드와 모델은 https://github.com/SmartBot-PJLab/P3Former 에서 공개되어 있다.