Command Palette
Search for a command to run...
OmniDrive: مجموعة بيانات شاملة للرؤية واللغة لقيادة السيارات ذاتية القيادة مع التفكير المضاد للواقع
Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez

الملخص
التطورات في نماذج الرؤية واللغة (VLMs) أدت إلى اهتمام متزايد بقيادة المركبات ذاتياً للاستفادة من قدراتها التحليلية القوية. ومع ذلك، فإن توسيع هذه القدرات من二维到全面的三维理解对于实际应用至关重要。为了解决这一挑战,我们提出了OmniDrive,这是一个综合性的视觉-语言数据集,通过反事实推理将代理模型与三维驾驶任务对齐。这种方法通过评估潜在情景及其结果来增强决策能力,类似于人类驾驶员在考虑替代行动时的做法。我们的基于反事实的合成数据注释过程生成了大规模、高质量的数据集,提供了更密集的监督信号,弥合了规划轨迹和基于语言的推理之间的差距。此外,我们探讨了两种先进的OmniDrive-Agent框架,即Omni-L和Omni-Q,以评估视觉-语言对齐与三维感知的重要性,揭示了设计有效LLM-代理的关键见解。在DriveLM问答基准测试和nuScenes开环规划中的显著改进证明了我们数据集和方法的有效性。 修正后的翻译: التطورات في نماذج الرؤية واللغة (VLMs) أدت إلى زيادة الاهتمام بقيادة السيارات ذاتياً للاستفادة من قدراتها التحليلية القوية. ومع ذلك، فإن توسيع هذه القدرات من البعد ثنائي إلى فهم شامل ثلاثي الأبعاد هو أمر حاسم للتطبيقات الواقعية. لمعالجة هذا التحدي، نقترح OmniDrive، وهو مجموعة بيانات شاملة للرؤية واللغة تربط بين نماذج الوكيل والمهام الثلاثية الأبعاد للقيادة من خلال الاستدلال المضادي (counterfactual reasoning). تعزز هذه الطريقة قدرات صنع القرار عبر تقييم السيناريوهات المحتملة ونتائجها، مشابهةً لطريقة سائقي السيارات البشر عند النظر في الإجراءات البديلة. يولد عملية تسمية البيانات التركيبية المستندة إلى الاستدلال المضادي لدينا مجموعات بيانات كبيرة الحجم وعالية الجودة، مما يوفر إشارات إشراف أكثر كثافة تربط بين مسارات التخطيط والاستدلال القائم على اللغة. علاوة على ذلك، نقوم باستكشاف إطارين متقدمين لمجموعة OmniDrive-Agent، وهما Omni-L و Omni-Q، لتقييم أهمية تناسق الرؤية واللغة مقابل الإدراك الثلاثي الأبعاد، مما يكشف رؤى حاسمة في تصميم وكيل LLM فعال. أظهرت التحسينات الملحوظة في معيار DriveLM للأسئلة والأجوبة والتخطيط الدوراني المفتوح لـ nuScenes فعالية مجموعة البيانات والطرق الخاصة بنا.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.