PointLLM : Dotant les grands modèles de langage de la capacité de comprendre les nuages de points

Les avancées sans précédent dans les grands modèles de langage (LLMs) ont eu un impact profond sur le traitement du langage naturel, mais n'ont pas encore pleinement embrassé le domaine de la compréhension 3D. Cet article introduit PointLLM, une première tentative pour combler cette lacune, permettant aux LLMs de comprendre les nuages de points et offrant une nouvelle voie au-delà des données visuelles 2D. PointLLM comprend les nuages de points d'objets colorés avec des instructions humaines et génère des réponses contextuellement appropriées, illustrant sa maîtrise des nuages de points et du sens commun. Plus précisément, il utilise un encodeur de nuages de points associé à un puissant LLM pour fusionner efficacement les informations géométriques, d'apparence et linguistiques. Nous collectons un nouveau jeu de données composé de 660 000 paires simples et 70 000 paires complexes de nuages de points et de textes avec instructions, afin d'adopter une stratégie d'entraînement en deux étapes : l'alignement des espaces latents suivi du réglage des instructions du modèle unifié. Pour évaluer rigoureusement les capacités perceptives et généralisatrices de PointLLM, nous établissons deux benchmarks : la classification générative d'objets 3D et la légendisation d'objets 3D, évalués par trois méthodes différentes, y compris l'évaluation humaine, l'évaluation par GPT-4/ChatGPT et les métriques traditionnelles. Les résultats expérimentaux montrent que PointLLM surpasse les modèles existants en 2D et en 3D, avec une performance remarquable dans les tâches de légendisation d'objets évaluées par des humains où il dépasse les annotateurs humains dans plus de 50 % des échantillons. Les codes source, les jeux de données et les benchmarks sont disponibles à l'adresse suivante : https://github.com/OpenRobotLab/PointLLM .