2달 전
대조적 언어-이미지-3D 사전학습에서 통합적인 3D 표현 조각내기
Yipeng Gao; Zeyu Wang; Wei-Shi Zheng; Cihang Xie; Yuyin Zhou

초록
대조 학습은 3D 오픈 월드 이해를 위한 유망한 패러다임으로 부각되었습니다. 즉, 포인트 클라우드 표현을 이미지와 텍스트 임베딩 공간에 개별적으로 맞추는 것입니다. 본 논문에서는 MixCon3D라는 간단하면서도 효과적인 방법을 소개합니다. 이 방법은 대조적 언어-이미지-3D 사전 학습에서 전반적인 3D 표현을 조형하는 것을 목표로 합니다. 포인트 클라우드만 사용하는 것과 달리, 우리는 보완적인 관점에서 3D 객체 수준의 표현을 개발하였습니다. 예를 들어, 포인트 클라우드와 함께 다중 뷰 렌더링된 이미지를 사용하였습니다. 그런 다음, MixCon3D는 언어-3D 대조 학습을 수행하여 실제 세계의 3D 객체를 종합적으로 묘사하고 텍스트 정렬을 강화합니다. 또한, 우리는 3D 대조 학습 패러다임에 대한 다양한 학습 레시피의 첫 번째 철저한 조사를 선도하였으며, 성능이 개선된 견고한 베이스라인을 구축하였습니다. 세 가지 대표적인 벤치마크에서 실시한 광범위한 실험 결과, 우리의 방법이 기존 베이스라인보다 크게 향상되었음을 확인할 수 있었으며, 특히 어려운 1,156 카테고리 Objaverse-LVIS 데이터셋에서 이전 최고 성능을 5.7% 초과하였습니다. MixCon3D의 다용성은 텍스트-3D 검색 및 포인트 클라우드 캡셔닝 등의 응용 분야에서 입증되었습니다. 이를 통해 다양한 시나리오에서의 효율성이 더욱 증명되었습니다. 코드는 https://github.com/UCSC-VLAA/MixCon3D 에서 제공됩니다.