2달 전

ViT-Lens: 3D 인사이트를 통한 옴니모달 탐색의 시작

Lei, Weixian ; Ge, Yixiao ; Zhang, Jianfeng ; Sun, Dylan ; Yi, Kun ; Shan, Ying ; Shou, Mike Zheng
ViT-Lens: 3D 인사이트를 통한 옴니모달 탐색의 시작
초록

비전-언어 모델에서 CLIP 기반 학습 방법의 성공에도 불구하고, 이 방법은 대규모 데이터가 비싸거나 희귀한 모달리티에 적용할 수 없는 경우 3D, 오디오 등과 같은 더 많은 모달리티로 확장하는 데 한계가 있습니다. 본 논문에서는 ViT-Lens를 제시합니다. 이는 사전 학습된 ViT를 사용하여 새로운 모달리티를 인식하고 사전 정의된 공간에 맞추어 효율적인 옴니-모달 표현 학습을 촉진합니다. 구체적으로, 모달리티 특화 렌즈는 다중 모달 신호를 공유 임베딩 공간으로 투영하도록 조정되며, 이는 이미지 지식을 사전 학습한 강력한 ViT에 의해 처리됩니다. 인코딩된 다중 모달 표현은 오프더shelf 기초 모델이 사전 정의한 모달 독립적 공간과 일치하도록 최적화됩니다. 잘 학습된 렌즈와 ViT 백본은 후속 모달리티의 학습을 감독하는 이러한 기초 모델 중 하나로 활용될 가능성이 있습니다.ViT-Lens는 두 가지 매력적인 장점으로 점점 더 많은 모달리티의 표현 학습에 통합적인 해결책을 제공합니다: (i) 효율적인 데이터 체제 하에서 다양한 작업과 도메인에서 사전 학습된 ViT를 효과적으로 활용할 수 있습니다; (ii) 모달 일치 공간 덕분에 새로운 모달리티의 후속 다운스트림 능력이 입증되었습니다. 우리는 3D를 초기 검증으로서 ViT-Lens를 평가하였습니다. 제로샷 3D 분류에서 ViT-Lens는 이전 최신 연구보다 크게 개선된 결과를 보여주며, Objaverse-LVIS에서는 52.0%, ModelNet40에서는 87.4%, ScanObjectNN에서는 60.6%의 정확도를 달성하였습니다. 또한, 우리는 어떠한 적응 없이 훈련된 3D 렌즈를 InstructBLIP 모델에 단순히 통합함으로써 제로샷 3D 질문-답변을 가능하게 하였습니다. 우리는 가까운 미래에 더 많은 모달리티에서 ViT-Lens의 결과를 공개할 예정입니다.

ViT-Lens: 3D 인사이트를 통한 옴니모달 탐색의 시작 | 최신 연구 논문 | HyperAI초신경