2달 전

Uni3D: 대규모에서 통합 3D 표현 탐구

Zhou, Junsheng ; Wang, Jinsheng ; Ma, Baorui ; Liu, Yu-Shen ; Huang, Tiejun ; Wang, Xinlong
Uni3D: 대규모에서 통합 3D 표현 탐구
초록

최근 몇 년 동안 이미지나 텍스트의 표현 확장에 대한 연구가 활발히 이루어져 시각과 언어 학습 분야에서 혁신을 가져왔습니다. 그러나 3D 객체와 장면의 확장 가능한 표현은 상대적으로 덜 탐구되어 왔습니다. 본 연구에서는 이러한 문제를 해결하기 위해 Uni3D라는 3D 기초 모델을 제시합니다. Uni3D는 2D 초기화된 ViT를 사용하여 3D 포인트 클라우드 특징을 이미지-텍스트 정렬 특징과 일치시키기 위해 엔드투엔드로 사전학습됩니다. 간단한 아키텍처와 사전 작업을 통해 Uni3D는 풍부한 2D 사전학습 모델을 초기화에 활용하고, 이미지-텍스트 정렬 모델을 목표로 설정하여 2D 모델과 확장 전략의 큰 잠재력을 3D 세계로 이어갑니다. 우리는 Uni3D를 효율적으로 10억 개의 매개변수까지 확장하였으며, 제로샷 분류, 소수 샷 분류, 오픈 월드 이해 및 부품 세그멘테이션 등 다양한 3D 작업에서 새로운 기록을 세웠습니다. 또한 강력한 Uni3D 표현이 야외 환경에서의 3D 그림 그리기 및 검색 등의 응용 프로그램도 가능함을 보여주었습니다. 우리는 Uni3D가 3D 영역에서의 표현 확장과 효율성 탐구에 새로운 방향성을 제공한다고 믿습니다.