نقل وتنعيم التنبؤ للفصل الدلالي

تتطلب التصنيف الدلالي عادةً مجموعة كبيرة من الصور التي تم تسميتها على مستوى البكسل. وبالنظر إلى تكلفة التسمية الاحترافية العالية، أظهرت الأبحاث الحديثة أن النماذج التي تم تدريبها على بيانات صورية اصطناعية واقعية (مثل ألعاب الحاسوب) ذات تسميات مولدة بواسطة الحاسوب يمكن أن تُعدّل لتناسب الصور الحقيقية. وعلى الرغم من هذا التقدم، فإن النماذج ستتعرض بسهولة للانحدار المفرط على البيانات الاصطناعية دون قيود على التنبؤ بالصور الحقيقية، وذلك بسبب الفجوة الشديدة بين المجالين. في هذا البحث، نستعرض بشكل مبتكر الخصائص الجوهرية للتصنيف الدلالي لتخفيف هذه المشكلة في نقل النموذج. وبشكل خاص، نقدم ما يُسمى بـ "منظم نقل التنبؤ" (RPT)، الذي يفرض هذه الخصائص الجوهرية كقيود لتنظيم نقل النموذج بطريقة غير مراقبة. وتتضمن هذه القيود اتساق التنبؤات الدلالية على مستوى اللوحة، وعلى مستوى التجميع، وعلى مستوى السياق، في مستويات مختلفة من تكوين الصورة. وبما أن عملية النقل لا تتطلب تسميات وتستند إلى البيانات، يتم معالجة موثوقية التنبؤ من خلال اختيار مجموعة جزئية من مناطق الصورة لاستخدامها في تقوية النموذج. أُجريت تجارب واسعة لتأكيد فعالية RPT في نقل النماذج المدربة على بيانات GTA5 وSYNTHIA (بيانات اصطناعية) إلى مجموعة بيانات Cityscapes (مشاهد شوارع حضرية). وتبين أن RPT يحقق تحسينات مستمرة عند تطبيق القيود على عدة شبكات عصبية للتصنيف الدلالي. وبشكل ملحوظ أكثر، عند دمج RPT في إطار تصنيف يعتمد على التحديق (adversarial-based)، نُبلغ عن أفضل النتائج حتى تاريخه: متوسط مقياس التداخل بين التوقع والواقع (mIoU) بنسبة 53.2% / 51.7% عند نقل النموذج من GTA5 / SYNTHIA إلى Cityscapes على التوالي.