استغلال الترجمات الصورية من خلال التعلم الذاتي المجمّع للتكيف غير المراقب للنطاق

نُقدِّم استراتيجيةً لتكيف المجال غير المُراقَب (UDA) تدمج بين عدة عمليات تحويل الصور، والتعلم المُجمَّع، والتعلم الذاتي المُراقب في نهج متماسك واحد. نركّز على أحد المهام القياسية في UDA، حيث يتم تدريب نموذج التجزئة الدلالية على بيانات صور اصطناعية مُعلَّمة مع بيانات واقعية غير مُعلَّمة، بهدف الأداء الجيد على البيانات الواقعية. وللاستفادة من ميزة استخدام تحويلات متعددة للصور، نقترح نهجًا للتعلم المُجمَّع، حيث يقوم ثلاثة تصنيفات بحساب تنبؤاتها من خلال استخدام ميزات مُختلفة للصور الناتجة عن تحويلات متعددة، مما يُمكّن كل تصنيف من التعلُّم بشكل مستقل، بهدف دمج مخرجات هذه التصنيفات باستخدام طبقة انحدار لوجستي متعدد الحدود نادرًا (Sparse Multinomial Logistic Regression). تُعرف هذه الطبقة بـ "المتعلم الفائق" (meta-learner)، وهي تساعد على تقليل التحيُّز أثناء توليد التسميات الوهمية (pseudo labels) عند تنفيذ التعلم الذاتي المُراقب، كما تُحسّن قدرة النموذج على التعميم من خلال أخذ مساهمة كل تصنيف بعين الاعتبار. وقد قُمنا بتقييم طريقتنا على المعايير القياسية لـ UDA، أي تكييف بيانات GTA V وSynthia إلى بيانات Cityscapes، وحققنا نتائج متميزة على مستوى مقياس المتوسط المتقاطع للوحدة (mean intersection over union). وتم عرض تجارب تحليلية موسعة لتوضيح الخصائص المُتفوّقة للنهج المقترح في UDA.