HyperAIHyperAI
il y a 2 mois

3D-LLM : Intégration du monde 3D dans les grands modèles de langage

Hong, Yining ; Zhen, Haoyu ; Chen, Peihao ; Zheng, Shuhong ; Du, Yilun ; Chen, Zhenfang ; Gan, Chuang
3D-LLM : Intégration du monde 3D dans les grands modèles de langage
Résumé

Les grands modèles de langage (LLMs) et les modèles vision-langue (VLMs) ont fait leurs preuves dans la réalisation de multiples tâches, notamment le raisonnement de bon sens. Bien que ces modèles soient puissants, ils ne sont pas ancrés dans le monde physique tridimensionnel, qui implique des concepts plus riches tels que les relations spatiales, les possibilités d'utilisation, la physique, la disposition, etc. Dans cette étude, nous proposons d'intégrer le monde 3D aux grands modèles de langage et d'introduire une toute nouvelle famille de 3D-LLMs. Plus précisément, les 3D-LLMs peuvent prendre en entrée des nuages de points 3D et leurs caractéristiques pour effectuer un ensemble varié de tâches liées à la 3D, y compris la légendage, le légendage dense, la réponse à des questions 3D, la décomposition des tâches, l'ancrage 3D, le dialogue assisté par la 3D, la navigation, etc. En utilisant trois types de mécanismes de prompting que nous avons conçus, nous sommes en mesure de collecter plus de 300 000 données linguistiques 3D couvrant ces tâches.Pour entraîner efficacement les 3D-LLMs, nous utilisons d'abord un extracteur de caractéristiques 3D qui obtient des caractéristiques tridimensionnelles à partir d'images multivues rendues. Ensuite, nous utilisons des VLMs bidimensionnels comme base pour entraîner nos 3D-LLMs. En introduisant un mécanisme de localisation 3D, les 3D-LLMs peuvent mieux capturer l'information spatiale tridimensionnelle. Les expériences menées sur ScanQA montrent que notre modèle surpasse largement les meilleures performances actuelles (par exemple, le score BLEU-1 dépasse celui du meilleur modèle actuel de 9 %). De plus, les expériences sur nos jeux de données internes pour le légendage 3D, la composition des tâches et le dialogue assisté par la 3D montrent que notre modèle est supérieur aux VLMs bidimensionnels. Des exemples qualitatifs illustrent également que notre modèle peut effectuer des tâches allant au-delà du champ d'action des LLMs et VLMs existants. Page du projet : https://vis-www.cs.umass.edu/3dllm/.

3D-LLM : Intégration du monde 3D dans les grands modèles de langage | Articles de recherche récents | HyperAI