
마스크 오토인코더는 포인트 클라우드 자기 지도 학습에서 널리 연구되어 왔으며, 일반적으로 포인트 클라우드는 가시적 부분과 마스킹된 부분으로 나뉩니다. 이러한 방법들은 주로 가시적 패치(정규화된)와 해당 패치 중심(위치)을 입력으로 받는 인코더와, 인코더의 출력과 마스킹된 부분의 중심(위치)을 받아 마스킹된 패치의 각 점을 재구성하는 디코더를 포함합니다. 그런 다음, 사전 훈련된 인코더는 다운스트림 작업에 사용됩니다. 본 논문에서는 인코더로부터 정보 없이 마스킹된 패치의 중심을 직접 디코더에 제공해도 여전히 잘 재구성되는 동기 부여적인 경험적 결과를 제시합니다. 즉, 패치의 중심은 중요하며 재구성 목표가 반드시 인코더의 표현에 의존하지 않으므로, 인코더가 의미론적 표현을 학습하는 것을 방지할 수 있습니다.이러한 중요한 관찰에 기반하여, 우리는 간단하면서도 효과적인 방법을 제안합니다. 즉, 포인트 마스크 오토인코더(PCP-MAE)에서 중점 위치 예측(Predicting Centers for Point Masked AutoEncoders)을 학습하는 방법입니다. 이 방법은 모델이 중요한 중심을 예측하도록 안내하고, 예측된 중심을 직접 제공된 중심으로 대체하여 사용합니다. 구체적으로, 우리는 원래 인코더와 매개변수를 공유하며 추가적인 크로스 어텐션(cross-attention)을 통해 중심을 예측하는 중점 위치 예측 모듈(Predicting Center Module, PCM)을 제안합니다. 우리의 방법은 다른 대안들에 비해 높은 사전 훈련 효율성을 가지고 있으며, ScanObjectNN 데이터셋에서 3D 객체 분류 작업에서 Point-MAE보다 크게 개선되었습니다. 특히 OBJ-BG에서는 5.50%, OBJ-ONLY에서는 6.03%, PB-T50-RS에서는 5.17% 더 우수한 성능을 보였습니다. 코드는 https://github.com/aHapBean/PCP-MAE 에서 확인할 수 있습니다.