2달 전

Point-M2AE: 계층적 포인트 클라우드 사전 학습을 위한 다중 스케일 마스킹 오토인코더

Zhang, Renrui ; Guo, Ziyu ; Fang, Rongyao ; Zhao, Bin ; Wang, Dong ; Qiao, Yu ; Li, Hongsheng ; Gao, Peng
Point-M2AE: 계층적 포인트 클라우드 사전 학습을 위한 다중 스케일 마스킹 오토인코더
초록

마스크드 오토인코더(Masked Autoencoders, MAE)는 언어 및 2D 이미지 트랜스포머의 자기 지도 사전 학습에서 큰 잠재력을 보여주었습니다. 그러나 불규칙한 포인트 클라우드의 3D 표현을 학습하기 위해 마스크드 오토인코딩을 어떻게 활용할 수 있는지는 여전히 미해결된 문제입니다. 본 논문에서는 Point-M2AE라는 강력한 다중 스케일 MAE 사전 학습 프레임워크를 제안합니다. 이 프레임워크는 3D 포인트 클라우드의 계층적 자기 지도 학습을 위한 것입니다. 표준 MAE 트랜스포머와 달리, 우리는 인코더와 디코더를 피라미드 구조로 수정하여 공간 기하학을 단계적으로 모델링하고 3D 형태의 세부 정보와 고차 의미를 모두 포착할 수 있도록 하였습니다.스테이지별로 포인트 토큰을 다운샘플링하는 인코더에 대해, 우리는 일관된 가시 영역을 생성하기 위한 다중 스케일 마스킹 전략을 설계하였으며, 미세 조정(fine-tuning) 과정에서 이웃 패턴에 집중할 수 있는 지역 공간 자기 주의 메커니즘(local spatial self-attention mechanism)을 채택하였습니다. 다중 스케일 토큰 전파를 통해, 경량화된 디코더는 인코더로부터 보완적인 스킵 연결(complementary skip connections)을 사용하여 점진적으로 포인트 토큰을 업샘플링합니다. 이는 전반적인 관점에서부터 세부적인 관점까지 재구성을 촉진합니다.다양한 실험 결과가 Point-M2AE의 3D 표현 학습 성능이 최고 수준임을 입증하였습니다. 사전 학습 후 동결된 인코더를 사용하여 ModelNet40 데이터셋에서 선형 SVM으로 92.9%의 정확도를 달성하였으며, 일부 완전히 학습된 방법들을 능가하였습니다. 하위 작업(downstream tasks)에 대한 미세 조정(fine-tuning) 과정에서 Point-M2AE는 ScanObjectNN 데이터셋에서 86.43%의 정확도를 달성하였으며, 두 번째로 좋은 방법보다 +3.36% 높았습니다. 또한 계층적 사전 학습 방식(hierarchical pre-training scheme) 덕분에 소수 샘플 분류(few-shot classification), 부분 분할(part segmentation), 3D 객체 감지(3D object detection) 등 다양한 작업에서 크게 혜택을 받았습니다.코드는 https://github.com/ZrrSkywalker/Point-M2AE 에서 확인할 수 있습니다.

Point-M2AE: 계층적 포인트 클라우드 사전 학습을 위한 다중 스케일 마스킹 오토인코더 | 최신 연구 논문 | HyperAI초신경