أبسط هو أفضل: التجزئة الدلالية قليلة الأمثلة باستخدام محول أوزان المصنف

عادةً ما تتكون نموذج التجزئة الدلالية القائم على عدد قليل من الأمثلة (few-shot semantic segmentation) من معالج CNN (مُشفر)، ومعالج ترميز CNN (مُفكّك)، وفَصَّال بسيط (يُميّز بين بكسلات الخلفية والخلفية الأمامية). تعتمد معظم الطرق الحالية على تعلم ميتا (meta-learn) لجميع مكونات النموذج الثلاثة لتمكين التكيف السريع مع فئة جديدة. ومع ذلك، نظرًا لأن عدد الصور في مجموعة الدعم قد يصل إلى صورة واحدة فقط، فإن التكيف الفعّال لجميع المكونات الثلاثة مع الفئة الجديدة يُعدّ تحديًا كبيرًا للغاية. في هذه الدراسة، نقترح تبسيط مهمة التعلم الميتا من خلال التركيز فقط على المكون الأبسط، وهو الفَصَّال، مع الاحتفاظ بالمعالجات المشفرة والفكّة بالتدريب المسبق (pre-training). ونفترض أن إذا تم تدريب نموذج تجزئة جاهز (off-the-shelf) مسبقًا على مجموعة متنوعة من الفئات التدريبية، مع توفر تسميات كافية، فإن المعالجات المشفرة والفكّة ستكون قادرة على استخلاص ميزات تمييزية غنية يمكن تطبيقها على أي فئة غير مرئية، مما يجعل المرحلة اللاحقة للتعلم الميتا غير ضرورية. أما في ما يخص تعلم المُصنّف، فقد قمنا بتصميم ما يُسمى بـ "مُحوّل أوزان المُصنّف" (Classifier Weight Transformer - CWT)، المصمم لتكييف أوزان المُصنّف المُدرّب على مجموعة الدعم بشكل ديناميكي لكل صورة استقصاء (query image) بطريقة استنتاجية (inductive). أظهرت التجارب الواسعة على معيارين قياسيين أن النموذج، رغم بساطته، يتفوّق على الطرق المتطورة حديثًا، وفي كثير من الأحيان بفارق كبير. يُمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/zhiheLu/CWT-for-FSS.