HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 7 jours

Part-X-MLLM : Modèle de langage massif multimodal 3D sensible aux parties

Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

Part-X-MLLM : Modèle de langage massif multimodal 3D sensible aux parties

Résumé

Nous introduisons Part-X-MLLM, un grand modèle linguistique multimodal natif en 3D qui unifie diverses tâches 3D en les formulant comme des programmes dans une grammaire structurée et exécutable. Étant donné un nuage de points RGB et une requête en langage naturel, notre modèle génère de manière autoregressive une seule séquence cohérente de tokens, encodant des boîtes englobantes au niveau des parties, des descriptions sémantiques et des commandes d'édition. Cette sortie structurée sert d'interface polyvalente pour piloter des modules ultérieurs sensibles à la géométrie, destinés à la génération et à l'édition basées sur les parties. En déconnectant la planification symbolique de la synthèse géométrique, notre approche permet à tout moteur géométrique compatible d’être contrôlé via une seule interface native au langage. Nous pré-entraînons une architecture à double encodeur afin de séparer la structure de la sémantique, puis ajustons le modèle par instruction sur un grand jeu de données centré sur les parties. Les expériences montrent que notre modèle excelle dans la production de plans structurés de haute qualité, permettant des performances de pointe dans des tâches telles que les questions-réponses ancrées, la génération composée et l’édition localisée, toutes contrôlées via une interface unifiée. Page du projet : https://chunshi.wang/Part-X-MLLM/

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Part-X-MLLM : Modèle de langage massif multimodal 3D sensible aux parties | Articles de recherche | HyperAI