التفكيك الدلالي المراقب ضعيفًا للمشاهد المرورية

تُظهر التقنيات الحديثة في التجزئة الدلالية المُراقبة بشكل ضعيف (WSSS) التي تعتمد على العلامات على مستوى الصورة تدهورًا شديدًا في الأداء عند تطبيقها على مجموعات بيانات مشاهد القيادة مثل Cityscapes. ولحل هذه التحديات، نطور إطارًا جديدًا لـ WSSS مُخصصًا لمجموعات بيانات مشاهد القيادة. استنادًا إلى تحليل معمق لخصائص المجموعة، نستخدم نموذج التدريب المُسبق للغة والصورة (CLIP) كأساس لاستخراج أقنعة افتراضية (pseudo-masks). ومع ذلك، فإن CLIP يطرح تحديين رئيسيين: (1) تعاني الأقنعة الافتراضية من CLIP من ضعف تمثيل فئات الكائنات الصغيرة، و(2) تحتوي هذه الأقنعة على ضوضاء ملحوظة. ونقدم حلولًا لكل من هذه المشكلات كما يلي: (1) نُعدّ طريقة التدريب باستخدام الرؤى العالمية-المحليّة (Global-Local View Training)، التي تُدمج بشكل سلس قطعًا صغيرة خلال عملية التدريب، مما يعزز قدرة النموذج على التعامل مع الكائنات الصغيرة ذات الأهمية الكبيرة في مشاهد القيادة (مثل إشارات المرور). (2) نقدّم تقنية جديدة تُسمى موازنة المناطق الواعية بالاتساق (Consistency-Aware Region Balancing - CARB)، التي تُميّز بين المناطق الموثوقة والضوضائية من خلال تقييم التماسك بين أقنعة CLIP والتنبؤات الناتجة عن التجزئة. وتحدد CARB أولوية للنقاط الموثوقة على حساب النقاط الضوضائية من خلال وزن تلقائي للخسارة. وبشكل ملحوظ، حقق النهج المقترح تقييمًا بنسبة 51.8% في مقياس mIoU على مجموعة بيانات التقييم الخاصة بـ Cityscapes، مما يُظهر إمكاناته كأساس قوي لـ WSSS في مجموعات بيانات مشاهد القيادة. وتوحي النتائج التجريبية على مجموعتي CamVid وWildDash2 بفعالية الطريقة المقترحة عبر مجموعة متنوعة من المجموعات، حتى في ظل ظروف بيانات صغيرة أو صعوبات بصرية. يُمكن الوصول إلى الكود عبر الرابط: https://github.com/k0u-id/CARB.