Command Palette
Search for a command to run...
HERMES++ : Vers un modèle unifié du monde de la conduite pour la compréhension et la génération de scènes 3D
HERMES++ : Vers un modèle unifié du monde de la conduite pour la compréhension et la génération de scènes 3D
Xin Zhou Dingkang Liang Xiwu Chen Feiyang Tan Dingyuan Zhang Hengshuang Zhao Xiang Bai
Résumé
Les modèles mondiaux de conduite (world models) constituent une technologie pivot pour la conduite autonome en simulant la dynamique de l’environnement. Cependant, les approches existantes se concentrent principalement sur la génération de scènes futures, négligeant souvent une compréhension complète de la scène en 3D. Inversement, bien que les grands modèles de langage (LLM) fassent preuve de capacités de raisonnement impressionnantes, ils manquent de la capacité de prédire l’évolution géométrique future, créant ainsi un écart significatif entre l’interprétation sémantique et la simulation physique. Pour combler cette lacune, nous proposons HERMES++, un modèle mondial de conduite unifié qui intègre la compréhension de la scène 3D et la prédiction de la géométrie future au sein d’un même cadre. Notre approche répond aux exigences distinctes de ces tâches grâce à des conceptions synergiques. Premièrement, une représentation BEV (Bird's Eye View) consolide les informations spatiales multi-vues en une structure compatible avec les LLM. Deuxièmement, nous introduisons des requêtes mondiales améliorées par les LLM pour faciliter le transfert de connaissances depuis la branche de compréhension. Troisièmement, un lien du présent vers le futur (Current-to-Future Link) est conçu pour combler l’écart temporel, conditionnant l’évolution géométrique sur le contexte sémantique. Enfin, pour garantir l’intégrité structurelle, nous employons une stratégie d’optimisation géométrique conjointe qui intègre des contraintes géométriques explicites et une régularisation latente implicite afin d’aligner les représentations internes avec les a priori sensibles à la géométrie. Des évaluations extensives sur plusieurs benchmarks valident l’efficacité de notre méthode. HERMES++ obtient des performances solides, surpassant les approches spécialisées tant dans les tâches de prédiction de nuages de points futurs que de compréhension de scènes 3D. Le modèle et le code seront publiés publiquement à l’adresse https://github.com/H-EmbodVis/HERMESV2.