Point-LGMask: 다중 비율 마스킹을 통한 포인트 클라우드 사전 훈련을 위한 로컬 및 글로벌 컨텍스트 임베딩
자기지도 학습은 자연어 처리 및 2차원 시각 인식 분야에서 큰 성공을 거두었으며, 마스킹 모델링은 매우 널리 사용되는 사전 학습 전략이다. 그러나 국소적 특징과 전역적 특징을 결합하는 3차원 포인트 클라우드 이해로의 마스킹 확장은 새로운 도전 과제를 제기한다. 본 연구에서는 다중 비율 마스킹을 활용하여 국소적 및 전역적 맥락을 동시에 통합하는 새로운 방법인 Point-LGMask를 제안한다. 이는 포인트 클라우드의 자기지도 특징 학습에 매우 효과적이지만, 기존의 사전 학습 연구들에서는 무시되어 왔다. 구체적으로, 고정된 마스킹 비율에 과적합되는 것을 방지하기 위해, 먼저 다양한 난이도의 작업을 통해 인코더가 대표적인 특징을 충분히 탐색하도록 유도하는 다중 비율 마스킹을 제안한다. 또한 국소적 및 전역적 특징의 임베딩을 촉진하기 위해 복합 손실 함수를 설계하였으며, 이는 (i) 마스킹된 포인트 클라우드의 클러스터 할당이 완성된 입력과 일치하도록 유도하는 전역 표현 대조 손실과, (ii) 마스킹된 포인트를 정확히 예측하도록 유도하는 국소 포인트 클라우드 예측 손실로 구성된다. 제안한 Point-LGMask를 도입함으로써, 본 연구는 학습된 표현이 다양한 하류 작업, 즉 소량 샘플 분류, 형태 분류, 객체 부분 세그멘테이션, 실세계 장면 기반 3차원 객체 탐지 및 3차원 세그멘테이션 등에 잘 전이됨을 보여준다. 특히, 실제 캡처된 ScanObjectNN 데이터셋을 사용한 어려운 소량 샘플 분류 작업에서 기존 사전 학습 방법 대비 4% 이상의 성능 향상을 기록하며 두 번째로 우수한 방법을 상회하였다. 또한 3차원 객체 탐지 작업에서 두 번째로 우수한 방법 대비 0.4% AP25 및 0.8% AP50의 성능 향상을 달성하였으며, 3차원 세그멘테이션에서는 0.4% mAcc 및 0.5% mIoU의 개선을 보였다. 관련 코드는 https://github.com/TangYuan96/Point-LGMask 에 공개되어 있다.