Command Palette
Search for a command to run...
HERMES++: Auf dem Weg zu einem einheitlichen Fahrweltmodell für das Verständnis und die Generierung 3D-Szenen
HERMES++: Auf dem Weg zu einem einheitlichen Fahrweltmodell für das Verständnis und die Generierung 3D-Szenen
Xin Zhou Dingkang Liang Xiwu Chen Feiyang Tan Dingyuan Zhang Hengshuang Zhao Xiang Bai
Zusammenfassung
Weltmodelle im Fahrkontext stellen eine Schlüsseltechnologie für das autonome Fahren dar, indem sie die Dynamik der Umgebung simulieren. Bestehende Ansätze konzentrieren sich jedoch überwiegend auf die Generierung zukünftiger Szenen und vernachlässigen dabei häufig das umfassende Verständnis dreidimensionaler (3D-)Szenerien. Umgekehrt zeigen Large Language Models (LLMs) zwar beeindruckende Reasoning-Fähigkeiten, verfügen jedoch über keine Kapazität zur Vorhersage der zukünftigen geometrischen Entwicklung, was zu einer erheblichen Diskrepanz zwischen semantischer Interpretation und physikalischer Simulation führt. Um diese Lücke zu schließen, propose wir HERMES++, ein einheitliches Weltmodell für den Fahrkontext, das das 3D-Szenenverständnis und die Vorhersage zukünftiger Geometrie in einem einzigen Rahmenwerk integriert. Unser Ansatz adressiert die unterschiedlichen Anforderungen dieser Aufgaben durch synergistische Designs. Erstens konsolidiert eine BEV-Representation (Bird’s Eye View) multiviewräumliche Informationen in eine mit LLMs kompatible Struktur. Zweitens führen wir LLM-verstärkte World Queries ein, um den Wissenstransfer aus dem Verständnis-Modul zu erleichtern. Drittens ist eine Current-to-Future Link-Komponente entwickelt worden, um die zeitliche Lücke zu überbrücken, indem die geometrische Entwicklung an den semantischen Kontext gekoppelt wird. Viertens setzen wir zur Sicherstellung der strukturellen Integrität eine Joint Geometric Optimization-Strategie ein, die explizite geometrische Constraints mit impliziter latent Regularization kombiniert, um interne Repräsentationen an geometrie-bewusste Priors anzupassen. Umfassende Bewertungen auf mehreren Benchmarks validate die Effektivität unserer Methode. HERMES++ erzielt starke Leistung und übertrifft spezialisierte Ansätze sowohl in den Aufgaben der Future Point Cloud Prediction als auch des 3D-Szenenverständnisses. Das Modell und der Code werden öffentlich unter https://github.com/H-EmbodVis/HERMESV2 bereitgestellt.