HyperAIHyperAI

Command Palette

Search for a command to run...

HERMES++: Auf dem Weg zu einem einheitlichen Fahrweltmodell für das Verständnis und die Generierung 3D-Szenen

Xin Zhou Dingkang Liang Xiwu Chen Feiyang Tan Dingyuan Zhang Hengshuang Zhao Xiang Bai

Zusammenfassung

Weltmodelle im Fahrkontext stellen eine Schlüsseltechnologie für das autonome Fahren dar, indem sie die Dynamik der Umgebung simulieren. Bestehende Ansätze konzentrieren sich jedoch überwiegend auf die Generierung zukünftiger Szenen und vernachlässigen dabei häufig das umfassende Verständnis dreidimensionaler (3D-)Szenerien. Umgekehrt zeigen Large Language Models (LLMs) zwar beeindruckende Reasoning-Fähigkeiten, verfügen jedoch über keine Kapazität zur Vorhersage der zukünftigen geometrischen Entwicklung, was zu einer erheblichen Diskrepanz zwischen semantischer Interpretation und physikalischer Simulation führt. Um diese Lücke zu schließen, propose wir HERMES++, ein einheitliches Weltmodell für den Fahrkontext, das das 3D-Szenenverständnis und die Vorhersage zukünftiger Geometrie in einem einzigen Rahmenwerk integriert. Unser Ansatz adressiert die unterschiedlichen Anforderungen dieser Aufgaben durch synergistische Designs. Erstens konsolidiert eine BEV-Representation (Bird’s Eye View) multiviewräumliche Informationen in eine mit LLMs kompatible Struktur. Zweitens führen wir LLM-verstärkte World Queries ein, um den Wissenstransfer aus dem Verständnis-Modul zu erleichtern. Drittens ist eine Current-to-Future Link-Komponente entwickelt worden, um die zeitliche Lücke zu überbrücken, indem die geometrische Entwicklung an den semantischen Kontext gekoppelt wird. Viertens setzen wir zur Sicherstellung der strukturellen Integrität eine Joint Geometric Optimization-Strategie ein, die explizite geometrische Constraints mit impliziter latent Regularization kombiniert, um interne Repräsentationen an geometrie-bewusste Priors anzupassen. Umfassende Bewertungen auf mehreren Benchmarks validate die Effektivität unserer Methode. HERMES++ erzielt starke Leistung und übertrifft spezialisierte Ansätze sowohl in den Aufgaben der Future Point Cloud Prediction als auch des 3D-Szenenverständnisses. Das Modell und der Code werden öffentlich unter https://github.com/H-EmbodVis/HERMESV2 bereitgestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp