16일 전

ULIP-2: 3D 이해를 위한 확장 가능한 다중모달 사전학습으로 나아가기

Le Xue, Ning Yu, Shu Zhang, Artemis Panagopoulou, Junnan Li, Roberto Martín-Martín, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese
ULIP-2: 3D 이해를 위한 확장 가능한 다중모달 사전학습으로 나아가기
초록

최근 다중모달 사전학습 기술의 발전은 3D 형태, 그 2D 대응물, 그리고 언어 설명 간의 다중모달 특징을 정렬함으로써 3D 표현 학습에서 유망한 성과를 보여주고 있다. 그러나 기존 프레임워크들이 다중모달 데이터를 수집하는 방식, 특히 3D 형태에 대한 언어 설명을 생성하는 방식은 확장성이 낮으며, 수집된 언어 설명의 다양성도 부족하다. 이를 해결하기 위해 우리는 3D 형태에 대해 포괄적인 언어 설명을 자동으로 생성할 수 있도록 대규모 다중모달 모델을 활용하는 간단하면서도 효과적인 삼중모달 사전학습 프레임워크인 ULIP-2를 제안한다. ULIP-2는 입력으로 3D 데이터만 필요로 하며, 인간의 3D 레이블링이 전혀 필요 없어 대규모 데이터셋에 대해 확장 가능한 특성을 지닌다. 또한 더 나은 다중모달 표현 학습을 위해 확장된 백본 구조를 탑재하고 있다. 우리는 Objaverse와 ShapeNet이라는 두 개의 대규모 3D 데이터셋에서 실험을 수행하며, 3D 포인트 클라우드, 이미지, 언어를 포함하는 삼중모달 데이터셋을 추가로 구성하여 ULIP-2의 학습에 활용하였다. 실험 결과, ULIP-2는 세 가지 하류 작업에서 뚜렷한 성능 향상을 보였다: 제로샷 3D 분류, 미세조정을 통한 표준 3D 분류, 3D 캡션 생성(3D에서 언어로의 생성). 특히 제로샷 분류에서 Objaverse-LVIS에서 50.6% (top-1), ModelNet40에서 84.7% (top-1)의 새로운 최고 성능(SOTA)을 달성하였다. 표준 미세조정을 위한 ScanObjectNN 벤치마크에서는 단 140만 개의 파라미터를 가진 컴팩트한 모델로도 전체 정확도 91.5%를 달성하였다. ULIP-2는 인간의 레이블링 없이 확장 가능한 다중모달 3D 표현 학습의 새로운 패러다임을 제시하며, 기존 기준 모델 대비 상당한 성능 향상을 보였다. 코드와 데이터셋은 https://github.com/salesforce/ULIP 에 공개되었다.

ULIP-2: 3D 이해를 위한 확장 가능한 다중모달 사전학습으로 나아가기 | 최신 연구 논문 | HyperAI초신경