2달 전
Point-Bind & Point-LLM: 3D 이해, 생성 및 지시사항 준수를 위한 포인트 클라우드와 다중 모달리티의 정렬
Guo, Ziyu ; Zhang, Renrui ; Zhu, Xiangyang ; Tang, Yiwen ; Ma, Xianzheng ; Han, Jiaming ; Chen, Kexin ; Gao, Peng ; Li, Xianzhi ; Li, Hongsheng ; Heng, Pheng-Ann

초록
우리는 Point-Bind를 소개합니다. Point-Bind는 3D 다중 모드 모델로, 포인트 클라우드를 2D 이미지, 언어, 오디오 및 비디오와 일치시키는 기능을 제공합니다. ImageBind의 지침에 따라, 우리는 3D와 다중 모드 간의 공동 임베딩 공간을 구축하여 많은 유망한 응용 프로그램을 가능하게 합니다. 예를 들어, any-to-3D 생성(Any-to-3D Generation), 3D 임베딩 산술(3D Embedding Arithmetic), 그리고 3D 오픈 월드 이해(3D Open-World Understanding) 등이 있습니다. 이에 더해, 우리는 Point-LLM을 제시합니다. Point-LLM은 3D 다중 모달 지침을 따르는 첫 번째 3D 대형 언어 모델(Large Language Model, LLM)입니다. 파라미터 효율적인 미세 조정(fine-tuning) 기법을 통해 Point-LLM은 사전 학습된 LLMs(예: LLaMA)에 Point-Bind의 의미론(semantics)을 주입합니다. 이 과정은 3D 지침 데이터가 필요하지 않지만, 우수한 3D 및 다중 모달 질문-답변 능력을 보여줍니다. 우리는 우리의 연구가 커뮤니티에게 3D 포인트 클라우드를 다중 모다리티 응용 프로그램으로 확장하는 데 도움이 되기를 바랍니다. 코드는 https://github.com/ZiyuGuo99/Point-Bind_Point-LLM에서 이용할 수 있습니다.