포지션 가이드 포인트 클라우드 판토피크 세그멘테이션 트랜스포머

DEtection TRansformer(DETR)는 통합적인 시각 인식을 위해 학습 가능한 쿼리 집합을 사용하는 트렌드를 시작하였다. 본 연구는 이 매력적인 패러다임을 LiDAR 기반 포인트 클라우드 분할에 적용하여 단순하면서도 효과적인 베이스라인을 도출한다. 비록 단순한 적응 방식은 적절한 성능을 보이지만, 인스턴스 분할 성능은 기존 연구들에 비해 뚜렷하게 열등하다는 점을 확인할 수 있다. 세부 사항을 분석한 결과, 희소한 포인트 클라우드 내 인스턴스는 전체 시나리오에 비해 상대적으로 작으며, 기하학적 형태는 유사하지만 분할을 위한 특징적인 외형 정보가 부족한 경우가 흔하다는 점을 발견하였다. 이러한 특성은 이미지 영역에서는 드문 현상이다. 3D 공간에서 인스턴스는 위치 정보에 더 크게 의존한다는 점을 고려하여, 모델링 과정에서 위치 정보의 중요성을 강조하고, 강건한 혼합 매개변수화된 위치 임베딩(Mixed-parameterized Positional Embedding, MPE)을 설계하였다. 이 MPE는 백본 특징에 통합되어 이후 마스크 예측 및 쿼리 업데이트 과정을 반복적으로 안내함으로써, 위치 인지 분할(Position-Aware Segmentation, PA-Seg)과 마스킹된 포칼 주의(Masked Focal Attention, MFA)를 실현한다. 이러한 설계들은 쿼리가 특정 영역에 집중하고 다양한 인스턴스를 식별하도록 유도한다. 본 연구에서 제안한 방법은 '위치 지도형 포인트 클라우드 팔라티픽 분할 트랜스포머(P3Former)'로 명명되며, SemanticKITTI 및 nuScenes 벤치마크에서 각각 3.4%, 1.2%의 PQ 점수 향상을 기록하며 기존 최고 성능 모델들을 능가한다. 소스 코드와 모델은 https://github.com/SmartBot-PJLab/P3Former 에서 공개되어 있다.