3D-R1 : Amélioration du raisonnement dans les VLM 3D pour une compréhension unifiée des scènes

Les modèles vision-langage à grande échelle (VLM) ont accompli des progrès significatifs dans les tâches de compréhension visuelle 2D, suscitant un intérêt croissant pour étendre ces capacités à la compréhension de scènes 3D. Toutefois, les VLM 3D actuels peinent souvent à raisonner de manière robuste et à généraliser, en raison de limitations liées aux données spatiales de haute qualité et de l’hypothèse statique des points de vue. Pour relever ces défis, nous proposons 3D-R1, un modèle fondamental qui améliore les capacités de raisonnement des VLM 3D. Plus précisément, nous construisons tout d’abord un jeu de données synthétique de haute qualité, enrichi de raisonnement par étapes (CoT), nommé Scene-30K, en exploitant des jeux de données 3D-VL existants et un moteur de données basé sur Gemini 2.5 Pro. Ce jeu de données sert de données d’initialisation pour le démarrage froid de 3D-R1. Par ailleurs, nous utilisons une politique d’apprentissage par renforcement avec retour humain (RLHF), telle que GRPO, dans le processus d’entraînement par renforcement, afin d’améliorer les capacités de raisonnement, tout en introduisant trois fonctions de récompense : une récompense de perception, une récompense de similarité sémantique et une récompense de format, afin de préserver la précision de détection et la précision sémantique des réponses. En outre, nous proposons une stratégie dynamique de sélection de vue, qui choisit de manière adaptative les perspectives les plus informatives pour la compréhension des scènes 3D. Des expériences étendues démontrent que 3D-R1 obtient une amélioration moyenne de 10 % sur divers benchmarks de scènes 3D, mettant en évidence son efficacité pour renforcer le raisonnement et la généralisation dans la compréhension des scènes 3D. Code : https://github.com/AIGeeksGroup/3D-R1. Site web : https://aigeeksgroup.github.io/3D-R1.