2달 전

CLIP2Point: 이미지-깊이 사전 학습을 활용한 포인트 클라우드 분류로의 CLIP 전환

Tianyu Huang; Bowen Dong; Yunhan Yang; Xiaoshui Huang; Rynson W.H. Lau; Wanli Ouyang; Wangmeng Zuo
CLIP2Point: 이미지-깊이 사전 학습을 활용한 포인트 클라우드 분류로의 CLIP 전환
초록

3D 비전과 언어에 대한 사전 학습은 제한된 훈련 데이터로 인해 아직 개발 중입니다. 최근 연구에서는 비전-언어 사전 학습 모델을 3D 비전으로 전이시키는 데 시도하고 있습니다. PointCLIP은 포인트 클라우드 데이터를 다중 시점 깊이 맵으로 변환하여 CLIP을 형상 분류에 적용합니다. 그러나, 렌더링된 깊이 맵과 이미지 사이의 도메인 간극 및 깊이 분포의 다양성 때문에 그 성능이 제한됩니다. 이 문제를 해결하기 위해, 우리는 대조 학습을 통해 CLIP을 3D 영역으로 전이시키고 포인트 클라우드 분류에 적응시키는 이미지-깊이 사전 학습 방법인 CLIP2Point를 제안합니다. 우리는 더 나은 시각적 효과를 제공하는 새로운 깊이 렌더링 설정을 소개하고, ShapeNet에서 52,460개의 이미지와 깊이 맵 쌍을 렌더링하여 사전 학습에 사용하였습니다.CLIP2Point의 사전 학습 방식은 교차 모달리티 학습(cross-modality learning)을 결합하여 깊이 특성을 표현력 있는 시각적 및 텍스트 특성 캡처에 활용하며, 동일 모달리티 학습(intra-modality learning)을 통해 깊이 집계의 불변성을 강화합니다. 또한, 우리는 소수 샘플 학습(few-shot learning)을 위한 새로운 듀얼 패스 어댑터(Dual-Path Adapter, DPA) 모듈을 제안합니다. 듀얼 패스 구조는 CLIP과 CLIP2Point의 공동 사용을 가능하게 하며, 단순화된 어댑터는 후속 검색(post-search) 없이 소수 샘플 작업에 잘 맞춥니다. 실험 결과는 CLIP2Point가 CLIP 지식을 3D 비전으로 효과적으로 전송할 수 있음을 보여줍니다. 우리의 CLIP2Point는 PointCLIP과 다른 자기 감독 3D 네트워크들을 능가하여 zero-shot 및 few-shot 분류에서 최신 기술 수준의 결과를 달성하였습니다.

CLIP2Point: 이미지-깊이 사전 학습을 활용한 포인트 클라우드 분류로의 CLIP 전환 | 최신 연구 논문 | HyperAI초신경