Regress Before Construct: Point Cloud를 위한 Self-supervised Learning을 위한 Regress Autoencoder

마스크드 오토인코더(Masked Autoencoders, MAE)는 2D 및 3D 컴퓨터 비전에서 자기 지도 학습(self-supervised learning)에 있어 유망한 성능을 보여주었습니다. 그럼에도 불구하고, 기존의 MAE 기반 방법들은 여전히 특정 단점들이 있습니다. 첫째, 인코더와 디코더 사이의 기능 분리가 완전하지 않아 인코더의 표현 학습 능력이 제한됩니다. 둘째, 다운스트림 작업은 오직 인코더만을 활용하여, 사전 텍스트 작업에서 얻은 인코더-디코더 구조의 지식을 충분히 활용하지 못합니다.본 논문에서는 포인트 클라우드 자기 지도 학습(point cloud self-supervised learning)을 위한 회귀형 오토인코더(regressive autoencoder)의 새로운 방안인 포인트 리그레스 오토인코더(Point Regress AutoEncoder, Point-RAE)를 제안합니다. 제안된 방법은 마스크 리그레서(mask regressor)를 도입하여 디코더와 인코더 사이의 기능을 분리합니다. 이 마스크 리그레서는 인코더가 부호화한 가시 패치 표현(visible patch representation)과 디코더가 예측된 마스크 패치 표현(masked patch representation)으로부터 목표를 재구성(reconstructs the target)합니다. 이를 통해 우리는 디코더 업데이트가 인코더의 표현 공간에 미치는 영향을 최소화합니다.또한, 우리는 가시 패치 표현으로부터 예측된 마스크 패치 표현이 인코더로부터 계산된 마스크 패치 표현과 일치하도록 하는 정렬 제약(alignment constraint)을 도입하였습니다. 사전 학습(pre-training) 단계에서 학습된 지식을 충분히 활용하기 위해, 우리는 제안된 Point-RAE를 위한 새로운 fine-tune 모드를 설계하였습니다. 광범위한 실험 결과는 우리의 접근법이 사전 학습 중 효율적이며 다양한 다운스트림 작업에서 잘 일반화됨(generalizes well on various downstream tasks)을 입증하였습니다.특히, 우리의 사전 학습 모델은 ScanObjectNN 가장 어려운 분할(hardest split)에서 \textbf{90.28\%}의 높은 정확도와 ModelNet40에서 \textbf{94.1\%}의 정확도를 달성하여 모든 다른 자기 지도 학습 방법들을凌驾(초월)하였습니다. 우리의 코드와 사전 학습 모델은 다음 주소에서 공개적으로 이용 가능합니다: \url{https://github.com/liuyyy111/Point-RAE}.注:在最后一句中,“凌驾”被翻译为“초월”,这是根据上下文选择的一个较为正式的词汇,表示“超越”。如果需要更精确的表达,可以考虑使用“surpassing”对应的韩语词“넘어선”。以下是调整后的句子:특히, 우리의 사전 학습 모델은 ScanObjectNN 가장 어려운 분할(hardest split)에서 \textbf{90.28\%}의 높은 정확도와 ModelNet40에서 \textbf{94.1\%}의 정확도를 달성하여 모든 다른 자기 지도 학습 방법들을 넘어선 것입니다.