CrossMoCo: 포인트 클라우드를 위한 다중 모달 모멘텀 대비 학습
포인트 클라우드는 특정 구조가 없고 순열에 대해 불변(permutation-invariant)인 3차원 기하학적 데이터이다. 최근 시각 작업 분야에서 포인트 클라우드의 응용이 큰 주목을 받고 있다. 그러나 기존 포인트 클라우드 관련 연구 대부분은 대규모 레이블링된 데이터를 기반으로 한 지도 학습(supervised learning)을 사용하고 있으며, 이러한 데이터 수집은 비용이 크고 인력이 많이 소요되는 문제를 안고 있다. 이를 해결하기 위해 비지도 학습(unsupervised learning), 특히 자기지도 학습(self-supervised learning)이 2차원 컴퓨터 비전 분야에서 다양한 작업에서 유망한 성능을 보이며, 3차원 컴퓨터 비전 응용 분야에도 잠재력이 있다고 기대되고 있다. 본 연구에서는 포인트 클라우드의 레이블 없는 데이터 표현을 학습하는 새로운 자기지도 학습 방법인 CrossMoCo를 제안한다. CrossMoCo는 포인트 클라우드의 2차원 렌더링 이미지도 활용하는 다중 모달(multi-modal) 환경에서 학습을 수행한다. 기존의 포인트 클라우드 다중 모달 자기지도 학습 방법보다 우수한 성능을 달성하기 위해 두 가지 새로운 개념을 도입하였다: 보다 많은 음성 샘플(negative samples)을 활용한 모멘텀 대조 학습(momentum contrastive learning)과 다중 뷰 내 모달 대조 학습(multiple-view intra-modal contrastive learning). 첫 번째 구성 요소는 온라인 인코더와 모멘텀 인코더를 사용하여 대량의 음성 샘플로부터 학습하며, 일관된 학습 신호를 제공한다. 두 번째 구성 요소는 동일한 모달 내에서 샘플의 다양한 뷰 간 일관성을 강제함으로써 다중 모달 표현의 품질을 향상시킨다. 본 연구에서는 선형 분류 및 소수 샘플 학습(few-shot learning) 작업을 위해 대표적인 두 개의 벤치마크 데이터셋(ModelNet40 및 ScanObjectNN)에서 광범위한 실험을 수행하였다. 실험 결과, CrossMoCo는 두 데이터셋에서 모두 기존 방법보다 우수한 성능을 보였으며, 선형 분류 작업에서 최대 4.36%의 성능 향상, 소수 샘플 학습 작업에서 최대 9.2%의 성능 향상을 달성하였다. 본 연구의 코드는 https://github.com/snehaputul/CrossMoCo 에서 공개되어 있다.