Point-BERT: 마스킹 포인트 모델링을 이용한 3D 포인트 클라우드 트랜스포머 사전 학습

우리는 3D 포인트 클라우드에 BERT 개념을 일반화하기 위한 새로운 패러다임인 Point-BERT를 제시합니다. BERT에서 영감을 받아, 우리는 포인트 클라우드 트랜스포머를 사전 학습하기 위해 마스킹된 포인트 모델링(MPM) 작업을 설계하였습니다. 구체적으로, 먼저 포인트 클라우드를 여러 개의 로컬 포인트 패치로 나눕니다. 이어서, 이산 변분 오토인코더(dVAE)를 사용한 포인트 클라우드 토크나이저가 의미 있는 로컬 정보를 포함하는 이산 포인트 토큰을 생성하도록 설계되었습니다. 그런 다음, 입력 포인트 클라우드의 일부 패치를 무작위로 마스킹하고 이를 백본 트랜스포머에 입력합니다. 사전 학습 목표는 토크나이저가 얻은 포인트 토큰의 감독 하에 마스킹된 위치에서 원래의 포인트 토큰을 복원하는 것입니다. 광범위한 실험 결과, 제안된 BERT 스타일의 사전 학습 전략이 표준적인 포인트 클라우드 트랜스포머의 성능을 크게 향상시키는 것으로 나타났습니다. 우리의 사전 학습 전략을 적용함으로써 순수한 트랜스포머 아키텍처가 ModelNet40에서 93.8%의 정확도와 ScanObjectNN에서 가장 어려운 설정에서 83.1%의 정확도를 달성하였으며, 이는 수많은 수작업 설계를 거친 신중하게 설계된 포인트 클라우드 모델들을 크게 능가하였습니다. 또한 Point-BERT가 학습한 표현들이 새로운 작업과 도메인으로 잘 전이됨을 보여주며, 우리의 모델들은 소수 샷(few-shot) 포인트 클라우드 분류 작업에서 기존 최신 연구보다 크게 발전하였음을 입증하였습니다. 코드와 사전 학습된 모델들은 https://github.com/lulutang0608/Point-BERT 에서 제공됩니다.