HyperAIHyperAI
منذ 11 أيام

V2X-ViT: التفاعل بين المركبات والعالم الخارجي مع الرؤية المُتَعَلِّمَة عبر نموذج التحويلة البصرية

Runsheng Xu, Hao Xiang, Zhengzhong Tu, Xin Xia, Ming-Hsuan Yang, Jiaqi Ma
V2X-ViT: التفاعل بين المركبات والعالم الخارجي مع الرؤية المُتَعَلِّمَة عبر نموذج التحويلة البصرية
الملخص

في هذه الورقة البحثية، نستعرض تطبيق اتصال المركبة مع كل شيء (V2X) لتحسين أداء الاستشعار لدى المركبات ذاتية القيادة. نقدم إطارًا متكاملًا للاستشعار التعاوني المُعتمد على اتصال V2X، باستخدام نموذج ترانسفورمر البصري الجديد. بشكل خاص، نُنشئ نموذج انتباه شاملًا يُدعى V2X-ViT، والذي يُمكنه دمج المعلومات بفعالية بين الوكالات الموجودة على الطرق (أي المركبات والبنية التحتية). يتكوّن V2X-ViT من طبقات متتالية من انتباه ذاتي متعدد الوكالات غير المتجانسة، وانتباه ذاتي نافذة متعددة المقاييس، مما يسمح بفهم التفاعل بين الوكالات والعلاقات المكانية لكل وكالة على حدة. تم تصميم هذه العناصر الأساسية ضمن بنية موحدة لـ Transformer، لمعالجة التحديات الشائعة في أنظمة V2X، مثل مشاركة المعلومات غير المتزامنة، وأخطاء الوضع (pose errors)، وتنوع مكونات V2X. وللتحقق من فعالية النهج المقدم، قمنا بإنشاء مجموعة بيانات واسعة النطاق للاستشعار باستخدام منصتي CARLA وOpenCDA. تُظهر النتائج التجريبية الواسعة أن V2X-ViT يحقق أداءً جديدًا على مستوى الحد الأقصى (state-of-the-art) في كشف الأجسام ثلاثية الأبعاد، ويُظهر أداءً قويًا حتى في البيئات الصعبة والمشوّشة. يمكن الوصول إلى الكود المصدر عبر الرابط التالي: https://github.com/DerrickXuNu/v2x-vit.

V2X-ViT: التفاعل بين المركبات والعالم الخارجي مع الرؤية المُتَعَلِّمَة عبر نموذج التحويلة البصرية | أحدث الأوراق البحثية | HyperAI