HyperAIHyperAI

Command Palette

Search for a command to run...

HERMES++ : Vers un modèle unifié du monde de la conduite pour la compréhension et la génération de scènes 3D

Xin Zhou Dingkang Liang Xiwu Chen Feiyang Tan Dingyuan Zhang Hengshuang Zhao Xiang Bai

Résumé

Les modèles mondiaux de conduite (world models) constituent une technologie pivot pour la conduite autonome en simulant la dynamique de l’environnement. Cependant, les approches existantes se concentrent principalement sur la génération de scènes futures, négligeant souvent une compréhension complète de la scène en 3D. Inversement, bien que les grands modèles de langage (LLM) fassent preuve de capacités de raisonnement impressionnantes, ils manquent de la capacité de prédire l’évolution géométrique future, créant ainsi un écart significatif entre l’interprétation sémantique et la simulation physique. Pour combler cette lacune, nous proposons HERMES++, un modèle mondial de conduite unifié qui intègre la compréhension de la scène 3D et la prédiction de la géométrie future au sein d’un même cadre. Notre approche répond aux exigences distinctes de ces tâches grâce à des conceptions synergiques. Premièrement, une représentation BEV (Bird's Eye View) consolide les informations spatiales multi-vues en une structure compatible avec les LLM. Deuxièmement, nous introduisons des requêtes mondiales améliorées par les LLM pour faciliter le transfert de connaissances depuis la branche de compréhension. Troisièmement, un lien du présent vers le futur (Current-to-Future Link) est conçu pour combler l’écart temporel, conditionnant l’évolution géométrique sur le contexte sémantique. Enfin, pour garantir l’intégrité structurelle, nous employons une stratégie d’optimisation géométrique conjointe qui intègre des contraintes géométriques explicites et une régularisation latente implicite afin d’aligner les représentations internes avec les a priori sensibles à la géométrie. Des évaluations extensives sur plusieurs benchmarks valident l’efficacité de notre méthode. HERMES++ obtient des performances solides, surpassant les approches spécialisées tant dans les tâches de prédiction de nuages de points futurs que de compréhension de scènes 3D. Le modèle et le code seront publiés publiquement à l’adresse https://github.com/H-EmbodVis/HERMESV2.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp