HyperAIHyperAI

Command Palette

Search for a command to run...

MiniGPT-3D : Alignement efficace de nuages de points 3D avec des grands modèles linguistiques en utilisant des a priori 2D

Tang Yuan ; Han Xu ; Li Xianzhi ; Yu Qiao ; Hao Yixue ; Hu Long ; Chen Min

Résumé

Les grands modèles de vision-langue bidimensionnels (2D-LLMs) ont attiré une attention considérable en reliant les grands modèles de langage (LLMs) aux images à l'aide d'un projecteur simple. Inspirés par leur succès, les grands modèles de nuages de points tridimensionnels-langue (3D-LLMs) intègrent également des nuages de points dans les LLMs. Cependant, l'alignement direct des nuages de points avec les LLMs nécessite des coûts de formation élevés, généralement de l'ordre de plusieurs centaines d'heures GPU sur des A100, ce qui freine le développement des 3D-LLMs. Dans cet article, nous présentons MiniGPT-3D, un modèle 3D-LLM efficace et puissant qui atteint plusieurs résultats d'état de l'art (SOTA) tout en n'étant formé que pendant 27 heures sur une seule RTX 3090. Plus précisément, nous proposons d'aligner les nuages de points tridimensionnels avec les LLMs en utilisant des a priori bidimensionnels issus des 2D-LLMs, ce qui permet d'exploiter la similarité entre les informations visuelles 2D et 3D. Nous introduisons une nouvelle stratégie d'entraînement en quatre étapes pour l'alignement modalité par étape, ainsi qu'un module de mélange d'experts interrogateurs pour agréger les caractéristiques de manière adaptative et avec une grande efficacité. De plus, nous utilisons des méthodes d'affinage paramétrique efficaces telles que LoRA et l'affinage normatif, aboutissant à seulement 47,8 millions de paramètres apprenables, soit jusqu'à 260 fois moins que les méthodes existantes. Des expériences approfondies montrent que MiniGPT-3D atteint l'état de l'art dans les tâches de classification et de légendage d'objets tridimensionnels, avec des coûts de formation nettement inférieurs. Notamment, MiniGPT-3D obtient une augmentation de 8,12 points du score d'évaluation GPT-4 pour la tâche difficile du légendage d'objets par rapport à ShapeLLM-13B, alors que ce dernier nécessite au total 160 heures GPU sur 8 A800. Nous sommes les premiers à explorer le domaine des 3D-LLMs efficaces, offrant ainsi de nouvelles perspectives à la communauté. Le code source et les poids du modèle sont disponibles sur https://github.com/TangYuan96/MiniGPT-3D.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp