إلى التمييز الدلالي القوي لمشاهد الحوادث من خلال العينة المختلطة من مصادر متعددة والتعلم التوليدي

تستخدم المركبات المستقلة تجزئة المشهد الحضري لفهم العالم الحقيقي بطريقة تشبه الطريقة التي يفهم بها الإنسان، والاستجابة وفقًا لذلك. شهدت تجزئة المشاهد العادية دقةً ملحوظةً على المعايير التقليدية. ومع ذلك، فإن جزءًا كبيرًا من الحوادث الواقعية ينطوي على مشاهد غير طبيعية، مثل تلك التي تشهد تشوهات في الأجسام أو انقلابات أو سلوكيات مرورية غير متوقعة. وبما أن حتى أخطاء التجزئة البسيطة في مشاهد القيادة قد تؤدي إلى تهديدات جسيمة للحياة البشرية، فإن موثوقية هذه النماذج في سيناريوهات الحوادث يُعد عاملًا بالغ الأهمية لضمان سلامة أنظمة النقل الذكي.في هذه الورقة، نقترح إطار عمل يُسمى التعلم المتعدد المصادر باستخدام التعلم التلوي (MMUDA)، بهدف تحسين قدرة نماذج التجزئة المبنية على المحولات (Segmentation Transformers) على التعميم في المشاهد الحادة الناتجة عن الحوادث. في إطار MMUDA، نستخدم تقنية "العينة المختلطة متعددة الأنظمة" لتعزيز صور مجالات متعددة المصادرة (المشاهد العادية) بملامح بيانات الهدف (المشاهد غير الطبيعية). ولتدريب نموذجنا، ندمج استراتيجية التعلم التلوي في البيئة متعددة المصادر لتعزيز موثوقية نتائج التجزئة. كما نُحسّن هيكل النواة الأساسية لتجزئة الصور (SegFormer) باستخدام تصميم مُعدّل لوحدة فك الترميز (HybridASPP)، يشمل تجميعًا هرميًا انتقائيًا للانتباه في نافذة واسعة وتقنيات تجميع شريطية، بهدف استخلاص الاعتمادات السياقية على مدى طويل بكفاءة. حقق نهجنا نتيجة mIoU قدرها 46.97% على معيار DADA-seg، متفوقًا على أحدث النماذج السابقة بنسبة تزيد عن 7.50%. وسيتم إتاحة الكود المصدر بشكل عام عبر الرابط: https://github.com/xinyu-laura/MMUDA.