CrossPoint: 3D 포인트 클라우드 이해를 위한 자기 지도형 크로스 모달 대조 학습

대규모 포인트 클라우드 데이터셋의 수동 주석화는 3D 객체 분류, 세분화 및 탐지와 같은 다양한 작업에 있어 포인트 클라우드의 불규칙한 구조 때문에 종종 노동 집약적입니다. 인간 라벨링 없이 작동하는 자기 지도 학습은 이 문제를 해결하기 위한 유망한 접근 방식입니다. 실제 세계에서 인간이 2D 이미지에서 배운 시각적 개념을 3D 세계 이해에 매핑할 수 있다는 점을 관찰하였습니다. 이러한 통찰력을 바탕으로, 우리는 전달 가능한 3D 포인트 클라우드 표현을 학습하기 위한 간단한 크로스 모달 대조 학습 방법인 CrossPoint를 제안합니다. 이 방법은 변환 공간에서 포인트 클라우드와 해당 렌더링된 2D 이미지 사이의 일치성을 최대화하여 객체의 3D-2D 대응성을 가능하게 하며, 동시에 포인트 클라우드 모달리티 내의 변환에 대한 불변성을 강화합니다. 우리의 공동 훈련 목표는 모달리티 내부와 cross-modal(크로스 모달) 간의 특징 대응성을 결합하여, 자기 지도 방식으로 3D 포인트 클라우드와 2D 이미지 모달리티 모두에서 풍부한 학습 신호를 생성합니다. 실험 결과, 우리의 접근 방식이 3D 객체 분류 및 세분화를 포함한 다양한 후속 작업에서 이전 비지도 학습 방법들을 능가함을 보여주었습니다. 또한, 감소 실험(ablation study) 연구들은 우리의 접근 방식이 더 나은 포인트 클라우드 이해를 위해 효과적임을 검증하였습니다. 코드와 사전 훈련된 모델은 http://github.com/MohamedAfham/CrossPoint에서 이용 가능합니다.