ULIP: 언어, 이미지, 포인트 클라우드의 통합 표현 학습을 통한 3D 이해

현재 최신의 3D 모델들의 인식 능력은 주석이 달린 데이터가 적은 데이터셋과 미리 정의된 범주 집합에 의해 제한됩니다. 2D 영역에서는 최근의 연구들이 다른 모달리티(예: 언어)에서의 지식을 활용함으로써 유사한 문제들을 크게 완화시킬 수 있음을 보여주었습니다. 이에 영감을 받아, 제한적인 데이터 환경에서 3D 이해를 개선하기 위해 다중모달 정보를 활용하는 것이 유망할 것으로 생각되지만, 이 분야에 대한 연구는 아직 충분히 이루어지지 않았습니다. 따라서, 우리는 세 가지 모달리티(이미지, 텍스트, 3D 포인트 클라우드)에서 객체 트리플렛을 사용하여 사전 학습하는 ULIP를 소개합니다.훈련용 트리플렛의 부족을 극복하기 위해, 이미 대량의 이미지-텍스트 쌍으로 학습하여 공통적인 시각적 및 텍스트 공간을 배운 사전 학습된 비전-언어 모델을 활용합니다. 그런 다음, ULIP는 소수의 자동으로 생성된 트리플렛을 사용하여 공통 이미지-텍스트 공간과 일치하는 3D 표현 공간을 학습합니다. ULIP는 3D 백본 네트워크와 무관하며 어떤 3D 아키텍처에도 쉽게 통합될 수 있습니다.실험 결과, ULIP는 우리의 프레임워크를 사용하여 ShapeNet55에서 단순히 사전 학습만으로도 여러 최신 3D 백본들의 성능을 효과적으로 개선했습니다. 이를 통해 ModelNet40과 ScanObjectNN에서 표준 3D 분류와 제로샷(zero-shot) 3D 분류 모두에서 최고 수준의 성능을 달성했습니다. 또한, ULIP는 ScanObjectNN에서 PointMLP의 3D 분류 성능을 약 3% 향상시키고, ModelNet40에서 제로샷 3D 분류의 상위 1등급(top-1) 정확도 측면에서 PointCLIP보다 28.8% 우수한 성능을 보였습니다. 우리의 코드와 사전 학습된 모델들은 https://github.com/salesforce/ULIP 에서 제공됩니다.