HyperAIHyperAI

Command Palette

Search for a command to run...

Part-X-MLLM : Modèle de langage massif multimodal 3D sensible aux parties

Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

Résumé

Nous introduisons Part-X-MLLM, un grand modèle linguistique multimodal natif en 3D qui unifie diverses tâches 3D en les formulant comme des programmes dans une grammaire structurée et exécutable. Étant donné un nuage de points RGB et une requête en langage naturel, notre modèle génère de manière autoregressive une seule séquence cohérente de tokens, encodant des boîtes englobantes au niveau des parties, des descriptions sémantiques et des commandes d'édition. Cette sortie structurée sert d'interface polyvalente pour piloter des modules ultérieurs sensibles à la géométrie, destinés à la génération et à l'édition basées sur les parties. En déconnectant la planification symbolique de la synthèse géométrique, notre approche permet à tout moteur géométrique compatible d’être contrôlé via une seule interface native au langage. Nous pré-entraînons une architecture à double encodeur afin de séparer la structure de la sémantique, puis ajustons le modèle par instruction sur un grand jeu de données centré sur les parties. Les expériences montrent que notre modèle excelle dans la production de plans structurés de haute qualité, permettant des performances de pointe dans des tâches telles que les questions-réponses ancrées, la génération composée et l’édition localisée, toutes contrôlées via une interface unifiée. Page du projet : https://chunshi.wang/Part-X-MLLM/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Part-X-MLLM : Modèle de langage massif multimodal 3D sensible aux parties | Articles | HyperAI