소나타: 신뢰할 수 있는 포인트 표현의 자기지도 학습

본 논문에서는 제한된 데이터와 최소한의 계산량 조건 하에서도 단순한 선형 탐색(linear probing)을 통해 다양한 3D 작업에 활용할 수 있는 신뢰할 수 있는 자기지도(point cloud) 모델이 존재하는지에 대해 의문을 제기한다. 기존의 3D 자기지도 학습 접근법들이 선형 탐색을 통한 표현 품질 평가에서 부족함을 드러내는 것으로 확인되었으며, 이는 우리가 ‘기하학적 단순화(geometric shortcut)’라 명명하는 현상 때문이라고 가정한다. 이 현상은 포인트 클라우드 데이터의 희소성에서 비롯되며 3D 분야에 특유한 문제로, 표현이 저수준의 공간적 특징으로 붕괴되게 만든다. 이 문제를 해결하기 위해 우리는 두 가지 핵심 전략을 제안한다. 첫째, 공간 정보를 은폐하는 방식으로 표현의 과도한 공간적 편향을 줄이고, 둘째, 입력 특징에 대한 의존도를 강화함으로써 보다 풍부한 표현을 학습한다. 이를 통해 자기 자극(self-distillation) 기반의 14만 개 포인트 클라우드로 구성된 ‘Sonata’ 모델을 설계하였다. Sonata는 간단하고 직관적이지만, 학습된 표현은 강력하고 신뢰할 수 있다. 제로샷(zero-shot) 시각화 결과에서는 의미론적 그룹화가 명확히 나타나며, 최근접 이웃 관계를 통해 강력한 공간적 추론 능력도 확인할 수 있다. Sonata는 파라미터 및 데이터 효율성 측면에서 뛰어난 성능을 보이며, ScanNet에서 선형 탐색 정확도를 21.8%에서 72.5%로 세 배 증가시켰고, 이전 방법 대비 1%의 데이터만으로도 성능을 거의 두 배로 끌어올렸다. 또한, 전체 미세조정(full fine-tuning)을 통해 3D 실내 및 실외 인식 작업 모두에서 최신 기준(SOTA)을 초월하는 성능을 달성하였다.