HyperAIHyperAI

Command Palette

Search for a command to run...

3D-R1 : Amélioration du raisonnement dans les VLM 3D pour une compréhension unifiée des scènes

Ting Huang Zeyu Zhang Hao Tang

Résumé

Les modèles vision-langage à grande échelle (VLM) ont accompli des progrès significatifs dans les tâches de compréhension visuelle 2D, suscitant un intérêt croissant pour étendre ces capacités à la compréhension de scènes 3D. Toutefois, les VLM 3D actuels peinent souvent à raisonner de manière robuste et à généraliser, en raison de limitations liées aux données spatiales de haute qualité et de l’hypothèse statique des points de vue. Pour relever ces défis, nous proposons 3D-R1, un modèle fondamental qui améliore les capacités de raisonnement des VLM 3D. Plus précisément, nous construisons tout d’abord un jeu de données synthétique de haute qualité, enrichi de raisonnement par étapes (CoT), nommé Scene-30K, en exploitant des jeux de données 3D-VL existants et un moteur de données basé sur Gemini 2.5 Pro. Ce jeu de données sert de données d’initialisation pour le démarrage froid de 3D-R1. Par ailleurs, nous utilisons une politique d’apprentissage par renforcement avec retour humain (RLHF), telle que GRPO, dans le processus d’entraînement par renforcement, afin d’améliorer les capacités de raisonnement, tout en introduisant trois fonctions de récompense : une récompense de perception, une récompense de similarité sémantique et une récompense de format, afin de préserver la précision de détection et la précision sémantique des réponses. En outre, nous proposons une stratégie dynamique de sélection de vue, qui choisit de manière adaptative les perspectives les plus informatives pour la compréhension des scènes 3D. Des expériences étendues démontrent que 3D-R1 obtient une amélioration moyenne de 10 % sur divers benchmarks de scènes 3D, mettant en évidence son efficacité pour renforcer le raisonnement et la généralisation dans la compréhension des scènes 3D. Code : https://github.com/AIGeeksGroup/3D-R1. Site web : https://aigeeksgroup.github.io/3D-R1.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
3D-R1 : Amélioration du raisonnement dans les VLM 3D pour une compréhension unifiée des scènes | Articles | HyperAI