Command Palette
Search for a command to run...
Part-X-MLLM : Modèle de langage massif multimodal 3D sensible aux parties
Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

Résumé
Nous introduisons Part-X-MLLM, un grand modèle linguistique multimodal natif en 3D qui unifie diverses tâches 3D en les formulant comme des programmes dans une grammaire structurée et exécutable. Étant donné un nuage de points RGB et une requête en langage naturel, notre modèle génère de manière autoregressive une seule séquence cohérente de tokens, encodant des boîtes englobantes au niveau des parties, des descriptions sémantiques et des commandes d'édition. Cette sortie structurée sert d'interface polyvalente pour piloter des modules ultérieurs sensibles à la géométrie, destinés à la génération et à l'édition basées sur les parties. En déconnectant la planification symbolique de la synthèse géométrique, notre approche permet à tout moteur géométrique compatible d’être contrôlé via une seule interface native au langage. Nous pré-entraînons une architecture à double encodeur afin de séparer la structure de la sémantique, puis ajustons le modèle par instruction sur un grand jeu de données centré sur les parties. Les expériences montrent que notre modèle excelle dans la production de plans structurés de haute qualité, permettant des performances de pointe dans des tâches telles que les questions-réponses ancrées, la génération composée et l’édition localisée, toutes contrôlées via une interface unifiée. Page du projet : https://chunshi.wang/Part-X-MLLM/
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.