2달 전
PointCLIP V2: CLIP과 GPT를 활용한 강력한 3D 오픈 월드 학습
Zhu, Xiangyang ; Zhang, Renrui ; He, Bowei ; Guo, Ziyu ; Zeng, Ziyao ; Qin, Zipeng ; Zhang, Shanghang ; Gao, Peng

초록
대규모 사전 학습 모델은 시각 및 언어 작업 모두에서 유망한 오픈 월드 성능을 보여주었습니다. 그러나 이들의 3D 포인트 클라우드에 대한 전이 능력은 아직 제한적이며, 분류 작업에만 국한되어 있습니다. 본 논문에서는 CLIP과 GPT를 협력하여 통합된 3D 오픈 월드 학습자인 PointCLIP V2를 제안합니다. PointCLIP V2는 제로샷 3D 분류, 세그멘테이션, 그리고 탐지에서 그들의 잠재력을 완전히 발휘할 수 있도록 설계되었습니다.3D 데이터와 사전 학습된 언어 지식 간의 일치성을 높이기 위해, PointCLIP V2는 두 가지 주요 설계를 포함하고 있습니다. 시각적인 측면에서는 형상 투영 모듈을 통해 CLIP에게 더 현실적인 깊이 맵을 생성하도록 유도하여, 투영된 포인트 클라우드와 자연 이미지 사이의 도메인 간 차이를 줄입니다. 텍스트 측면에서는 GPT 모델에게 3D 특화 텍스트를 생성하도록 유도하여, 이를 CLIP의 텍스트 인코더의 입력으로 사용합니다.3D 도메인에서 어떠한 학습도 수행하지 않은 상태에서도, 우리의 접근 방식은 세 개의 데이터셋에서 제로샷 3D 분류 정확도를 각각 +42.90%, +40.44%, +28.75% 상회하는 성능을 보였습니다. 또한 V2는 단순한 방법으로 소수 샷 3D 분류, 제로샷 3D 부분 세그멘테이션, 그리고 3D 객체 탐지로 확장될 수 있으며, 이는 우리 접근 방식의 통합된 3D 오픈 월드 학습에 대한 일반화 능력을 입증합니다.