Command Palette
Search for a command to run...
HERMES++: نحو نموذج عالمي موحد للقيادة لفهم وتوليد المشاهد ثلاثية الأبعاد
HERMES++: نحو نموذج عالمي موحد للقيادة لفهم وتوليد المشاهد ثلاثية الأبعاد
Xin Zhou Dingkang Liang Xiwu Chen Feiyang Tan Dingyuan Zhang Hengshuang Zhao Xiang Bai
الملخص
تمثل نماذج العالم القادرة على القيادة تقنية محورية في مجال القيادة الذاتية من خلال محاكاة ديناميكيات البيئة. ومع ذلك، تركز المنهجيات الحالية بشكل رئيسي على توليد المشاهد المستقبلية، متجاهلةً في كثير من الأحيان الفهم الشامل للمشهد ثلاثي الأبعاد. وفي المقابل، رغم قدرات الاستدلال المذهلة التي تظهرها نماذج اللغات الكبيرة (LLMs)، إلا أنها تفتقر إلى القدرة على التنبؤ بالتطور الهندسي المستقبلي، ما يخلق فجوة كبيرة بين التفسير الدلالي والمحاكاة الفيزيائية. لسد هذه الفجوة، نقترح هنا HERMES++، وهو نموذج عالمي موحد للقيادة يدمج فهم المشهد ثلاثي الأبعاد والتنبؤ بالهندسة المستقبلية ضمن إطار عمل واحد.يتعامل نهجنا مع المتطلبات المتميزة لهذه المهام من خلال تصاميم تكاملية. أولاً، يعزز تمثيل BEV المعلومات المكانية متعددة المشاهدات في هيكل متوافق مع نماذج اللغات الكبيرة. ثانياً، نقدم استعلامات عالم محسّنة بالنماذج اللغوية الكبيرة لتسهيل نقل المعرفة من فرع الفهم. ثالثاً، صُمم رابط "من الحاضر إلى المستقبل" لسد الفجوة الزمنية، حيث يُشرط التطور الهندسي بالسياق الدلالي. وأخيراً، للحفاظ على السلامة الهيكلية، نوظف استراتيجية التحسين الهندسي المشترك التي تدمج القيود الهندسية الصريحة مع التنظيم الضمني في الفضاء الكامِن لمحاذاة التمثيلات الداخلية مع البديهيات الواعية بالهندسة.وتؤكد التقييمات الشاملة على عدة معايير مرجعية فعالية منهجنا. يحقق HERMES++ أداءً قوياً، متفوقاًً على النُهُج المتخصصة في مهام كل من توقع nuage النقاط المستقبلية وفهم المشهد ثلاثي الأبعاد. سيتم إتاحة النموذج والشفرة المصدرية للعامة على الرابط: https://github.com/H-EmbodVis/HERMESV2.