بنية الشبكة القابلة للتكيف مع المجال واستراتيجيات التدريب العامة لتقسيم الصور المعنوية

يُمكّن التكيّف غير المُراقَب للنطاق (UDA) والعامّية النطاقية (DG) النماذج المتعلّمة في نطاق مصدرٍ من أداءٍ جيّد على نطاقات هدفٍ غير مُوسَّمة، بل وحتى غير مرئية. وبما أن الطرق السابقة لتقسيم المعنى في UDA&DG تعتمد في الغالب على شبكات قديمة، قمنا بتحديث المعماريات الحديثة، وكشفنا عن إمكانات نماذج الـ Transformers، وصممنا شبكة DAFormer المصممة خصيصًا لـ UDA&DG. وتُمكّن هذه الشبكة من تجنّب التكيّف الزائد مع النطاق المصدر من خلال ثلاث استراتيجيات تدريب: أولًا، يُقلّل العينة النادرة للصفات من التحيّز نحو الفئات الشائعة في النطاق المصدر؛ ثانيًا، يُعزّز المسافة بين ميزات صور فئة "الأشياء" في ImageNet؛ وثالثًا، يُحسّن التسخين التدريجي لمعدل التعلّم نقل الميزات من التدريب المسبق على ImageNet. وبما أن UDA&DG غالبًا ما تكون مكثّفة لذاكرة وحدة المعالجة الرسومية (GPU)، كانت الطرق السابقة تُقلّل حجم الصور أو تُقطّعها. ولكن التنبؤات منخفضة الدقة غالبًا ما تفشل في الحفاظ على التفاصيل الدقيقة، في حين تفتقر النماذج المدرّبة على صور مقطّعة إلى القدرة على اكتشاف معلومات السياق الطويلة النطاق ومقاومة التغيرات بين النطاقات. لذلك، نقدّم HRDA، وهي إطار متعدّد الدقة لـ UDA&DG، يدمج مزايا القطع الصغيرة عالية الدقة للحفاظ على التفاصيل الدقيقة في التقسيم، مع استخدام القطع الكبيرة منخفضة الدقة لالتقاط الترابطات السياقية الطويلة النطاق، مع انتباه مُدرّب للنطاقات. وقد أدى DAFormer وHRDA إلى تحسين كبير في أداء الحالة الراهنة لـ UDA&DG، بزيادة تزيد عن 10 وحدات mIoU على خمسة معايير مختلفة. ويمكن الوصول إلى التنفيذ عبر الرابط: https://github.com/lhoyer/HRDA.