마스킹된 장면 대비: 비지도 3D 표현 학습을 위한 확장 가능한 프레임워크

선구적인 연구로, PointContrast는 원시적인 RGB-D 프레임을 활용한 대조 학습(contrastive learning)을 통해 비지도 3차원 표현 학습을 수행하며, 다양한 후행 작업에서 그 유효성을 입증하였다. 그러나 이전 연구에서 지적된 두 가지 장애물로 인해 3차원 분야에서 대규모 비지도 학습의 흐름이 아직 확산되지 못하고 있다. 첫째, RGB-D 프레임 간의 대조적 시각(contrastive views) 매칭이 비효율적이며, 둘째, 기존 연구에서 언급된 불쾌한 모드 붕괴(mode collapse) 현상이 존재한다. 이러한 두 가지 장애물을 실증적 발판으로 전환하기 위해, 본 연구는 먼저 시나리오 수준의 포인트 클라우드에서 직접 대조적 시각을 생성하는 효율적이고 효과적인 대조 학습 프레임워크를 제안한다. 이는 철저히 설계된 데이터 증강 파이프라인과 실용적인 시각 혼합 전략을 통해 구현된다. 둘째, 대조 학습 프레임워크에 정교하게 설계된 대조 교차 마스크(contrastive cross masks)를 도입하여 포인트의 색상과 surfel 법선을 재구성하는 재구성 학습(reconstructive learning)을 수행한다. 제안하는 마스킹된 장면 대조(Masked Scene Contrast, MSC) 프레임워크는 보다 효율적이고 효과적으로 종합적인 3차원 표현을 추출할 수 있다. 기존 방법 대비 전처리 과정을 최소 3배 이상 가속화하면서도 성능 저하 없이 뛰어난 성능을 달성한다. 더불어 MSC는 다수의 데이터셋에 걸친 대규모 3차원 사전 학습을 가능하게 하여, 후행 작업에서 더욱 높은 성능을 발휘하며, 예를 들어 ScanNet의 의미 분할 검증 세트에서 75.5%의 mIoU를 달성하여 최신 기준(SOTA) 수준의 미세 조정 성능을 보여준다.