2달 전

PointCLIP: CLIP을 이용한 포인트 클라우드 이해

Zhang, Renrui ; Guo, Ziyu ; Zhang, Wei ; Li, Kunchang ; Miao, Xupeng ; Cui, Bin ; Qiao, Yu ; Gao, Peng ; Li, Hongsheng
PointCLIP: CLIP을 이용한 포인트 클라우드 이해
초록

최근, Zero-Shot 및 Few-Shot 학습을 위한 대조적 시각-언어 사전학습(Contrastive Vision-Language Pre-training, CLIP)은 오픈 보카브러리(open-vocabulary) 환경에서 이미지를 해당 텍스트와 일치시키는 2D 시각 인식에서 영감을 주는 성능을 보여주었습니다. 그러나, 대규모 2D 이미지-텍스트 쌍으로 사전학습된 CLIP이 3D 인식에 일반화될 수 있는지는 아직 충분히 연구되지 않았습니다. 본 논문에서는 PointCLIP을 제안하여 이러한 설정이 가능하다는 것을 확인합니다. PointCLIP은 CLIP으로 부호화된 포인트 클라우드와 3D 카테고리 텍스트 간의 정렬을 수행합니다. 구체적으로, 렌더링 없이 다중 시점 깊이 맵(multi-view depth maps)으로 프로젝션하여 포인트 클라우드를 부호화하고, 시점별 Zero-Shot 예측을 집계하여 2D에서 3D로의 지식 전달을 실현합니다. 이를 바탕으로, 우리는 글로벌 특성을 더 잘 추출하고 3D에서 학습된 Few-Shot 지식을 2D에서 사전학습된 CLIP에 적응적으로 융합하기 위한 시점 간 어댑터(inter-view adapter)를 설계하였습니다. Few-Shot 설정에서 경량 어댑터만 미세 조정(fine-tuning)하면 PointCLIP의 성능이 크게 향상됩니다. 또한, PointCLIP과 고전적인 3D 감독 학습 네트워크 사이의 보완적 특성을 관찰하였습니다. 간단한 앙상블(ensembling)로 PointCLIP은 기준 모델의 성능을 향상시키고 심지어 최신 모델(state-of-the-art models)보다 우수한 결과를 내기도 합니다. 따라서, PointCLIP은 저자원 비용과 데이터 체제 하에서 CLIP을 통해 효과적인 3D 포인트 클라우드 이해를 위한 유망한 대안입니다. 우리는 널리 사용되는 ModelNet10, ModelNet40 및 도전적인 ScanObjectNN 데이터셋에서 철저한 실험을 수행하여 PointCLIP의 효율성을 입증하였습니다. 코드는 https://github.com/ZrrSkywalker/PointCLIP 에서 제공됩니다.

PointCLIP: CLIP을 이용한 포인트 클라우드 이해 | 최신 연구 논문 | HyperAI초신경