شبكة تحويلية ثنائية الدورة لمخطط الطريق الموحد والكشف عن الأشياء ثلاثية الأبعاد في الرؤية الطائرية

تمثل الصورة من أعلى (BEV) أداة قوية لتعلم المهام المتعددة في القيادة الذاتية، بما في ذلك تقدير تخطيط الطريق وكشف الأشياء ثلاثية الأبعاد. ومع ذلك، فإن الأساليب الحديثة لتقدير تخطيط الطريق الموحد وكشف الأشياء ثلاثية الأبعاد نادرًا ما تعالج عدم التوازن بين الفئات في مجموعة البيانات التدريبية والتعلم متعدد الفئات لتقليل عدد الشبكات المطلوبة بشكل إجمالي. لتجاوز هذه القيود، نقترح نموذجًا موحدًا لتقدير تخطيط الطريق وكشف الأشياء ثلاثية الأبعاد مستوحى من هندسة المحول (transformer) وإطار التعلم CycleGAN. يتعامل النموذج المقترح مع انخفاض الأداء الناجم عن عدم التوازن بين الفئات في مجموعة البيانات باستخدام خسارة البؤرة (focal loss) وخسارة الدورة الثنائية المقترحة (dual cycle loss). بالإضافة إلى ذلك، نقوم بإعداد سيناريوهات تعلم واسعة لدراسة تأثير التعلم متعدد الفئات على تقدير تخطيط الطريق في حالات مختلفة. للتحقق من فعالية النموذج المقترح ومخطط التعلم، نجري دراسة استقصائية شاملة ودراسة مقارنة. تؤكد نتائج التجارب فعالية نموذجنا؛ حيث حققنا أداءً رائدًا في كل من مهام تقدير تخطيط الطريق وكشف الأشياء ثلاثية الأبعاد.