Point-Bind & Point-LLM : Alignement de nuages de points avec la multimodalité pour la compréhension, la génération et le suivi d'instructions en 3D

Nous présentons Point-Bind, un modèle 3D multi-modal qui aligne les nuages de points avec des images 2D, du langage, de l'audio et de la vidéo. Guidé par ImageBind, nous construisons un espace d'embedding conjoint entre le 3D et les multi-modalités, permettant de nombreuses applications prometteuses, telles que la génération any-to-3D, l'arithmétique d'embedding 3D et la compréhension ouverte du monde en 3D. En outre, nous introduisons Point-LLM, le premier grand modèle linguistique (LLM) 3D capable de suivre des instructions multi-modales 3D. Grâce à des techniques de fine-tuning efficaces en termes de paramètres, Point-LLM intègre la sémantique de Point-Bind dans des LLMs pré-entraînés, tels que LLaMA, qui n'ont pas besoin de données d'instructions 3D mais montrent une capacité supérieure à répondre à des questions en 3D et multi-modales. Nous espérons que notre travail pourra éclairer la communauté pour étendre les nuages de points 3D aux applications multi-modales. Le code est disponible sur https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.