MiniGPT-3D : Alignement efficace de nuages de points 3D avec des grands modèles linguistiques en utilisant des a priori 2D

Les grands modèles de vision-langue bidimensionnels (2D-LLMs) ont attiré une attention considérable en reliant les grands modèles de langage (LLMs) aux images à l'aide d'un projecteur simple. Inspirés par leur succès, les grands modèles de nuages de points tridimensionnels-langue (3D-LLMs) intègrent également des nuages de points dans les LLMs. Cependant, l'alignement direct des nuages de points avec les LLMs nécessite des coûts de formation élevés, généralement de l'ordre de plusieurs centaines d'heures GPU sur des A100, ce qui freine le développement des 3D-LLMs. Dans cet article, nous présentons MiniGPT-3D, un modèle 3D-LLM efficace et puissant qui atteint plusieurs résultats d'état de l'art (SOTA) tout en n'étant formé que pendant 27 heures sur une seule RTX 3090. Plus précisément, nous proposons d'aligner les nuages de points tridimensionnels avec les LLMs en utilisant des a priori bidimensionnels issus des 2D-LLMs, ce qui permet d'exploiter la similarité entre les informations visuelles 2D et 3D. Nous introduisons une nouvelle stratégie d'entraînement en quatre étapes pour l'alignement modalité par étape, ainsi qu'un module de mélange d'experts interrogateurs pour agréger les caractéristiques de manière adaptative et avec une grande efficacité. De plus, nous utilisons des méthodes d'affinage paramétrique efficaces telles que LoRA et l'affinage normatif, aboutissant à seulement 47,8 millions de paramètres apprenables, soit jusqu'à 260 fois moins que les méthodes existantes. Des expériences approfondies montrent que MiniGPT-3D atteint l'état de l'art dans les tâches de classification et de légendage d'objets tridimensionnels, avec des coûts de formation nettement inférieurs. Notamment, MiniGPT-3D obtient une augmentation de 8,12 points du score d'évaluation GPT-4 pour la tâche difficile du légendage d'objets par rapport à ShapeLLM-13B, alors que ce dernier nécessite au total 160 heures GPU sur 8 A800. Nous sommes les premiers à explorer le domaine des 3D-LLMs efficaces, offrant ainsi de nouvelles perspectives à la communauté. Le code source et les poids du modèle sont disponibles sur https://github.com/TangYuan96/MiniGPT-3D.