التعامل المتمايز بين الأشياء والمواد: طريقة بسيطة وغير مراقبة للتكيف النطاقي للفهم الدلالي

في هذا العمل، نتناول مشكلة التكيّف غير المراقب بين المجالات للتقسيم الدلالي من خلال تقليل الفرق بين المجال المصدر (البيانات الاصطناعية) والمجال الهدف (البيانات الحقيقية). أظهرت الطرق الرائدة في المجال أن إجراء محاذاة على المستوى الدلالي يُعدّ مفيدًا في التصدي لمشكلة الفرق بين المجالات. وباستنادًا إلى الملاحظة التي تفيد بأن فئات "المواد" (stuff) تُظهر عادةً مظهرًا مشابهًا عبر الصور من مجالات مختلفة، بينما تُظهر فئات "الأجسام" (أي المثيلات الكائنية) فروقًا أكبر بكثير، نقترح تحسين المحاذاة على المستوى الدلالي باستخدام استراتيجيات مختلفة لمناطق "المواد" و"الأجسام": (1) بالنسبة لفئات "المواد"، نُنشئ تمثيلًا مميزًا لكل فئة، ونُنفّذ عملية المحاذاة من المجال الهدف نحو المجال المصدر؛ (2) أما بالنسبة لفئات "الأجسام"، فيُنشَأ تمثيل مميز لكل مثيل فردي، ويُشجَّع المثيل في المجال الهدف على المحاذاة مع المثيل الأكثر تشابهًا فيه من المجال المصدر. وبهذا الطريقة، تُؤخذ الفروق الفردية ضمن فئات "الأجسام" بعين الاعتبار، مما يُخفّف من ظاهرة المحاذاة المفرطة. وبالإضافة إلى طريقة الاقتراح لدينا، نُظهر أيضًا سبب عدم استقرار خسارة التحدي المعاكس (adversarial loss) في تقليل الفرق في التوزيع، ونُبيّن أن طريقتنا تُسهم في تخفيف هذه المشكلة من خلال تقليل الفروق في المميزات الأكثر تشابهًا بين "المواد" و"المثيلات" بين المجالين المصدر والهدف. وقد أجرينا تجارب واسعة على مهام تكيّف مجال غير مراقب، وهي تحويل من GTA5 إلى Cityscapes، وتحويل من SYNTHIA إلى Cityscapes، وحققنا دقة تقسيم جديدة تمثل أفضل النتائج الحالية في المجال.