HyperAIHyperAI

Command Palette

Search for a command to run...

Point-Bind & Point-LLM : Alignement de nuages de points avec la multimodalité pour la compréhension, la génération et le suivi d'instructions en 3D

Résumé

Nous présentons Point-Bind, un modèle 3D multi-modal qui aligne les nuages de points avec des images 2D, du langage, de l'audio et de la vidéo. Guidé par ImageBind, nous construisons un espace d'embedding conjoint entre le 3D et les multi-modalités, permettant de nombreuses applications prometteuses, telles que la génération any-to-3D, l'arithmétique d'embedding 3D et la compréhension ouverte du monde en 3D. En outre, nous introduisons Point-LLM, le premier grand modèle linguistique (LLM) 3D capable de suivre des instructions multi-modales 3D. Grâce à des techniques de fine-tuning efficaces en termes de paramètres, Point-LLM intègre la sémantique de Point-Bind dans des LLMs pré-entraînés, tels que LLaMA, qui n'ont pas besoin de données d'instructions 3D mais montrent une capacité supérieure à répondre à des questions en 3D et multi-modales. Nous espérons que notre travail pourra éclairer la communauté pour étendre les nuages de points 3D aux applications multi-modales. Le code est disponible sur https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp