DifFSS: نموذج التشتت للتقسيم الدلالي القائم على عدد قليل من الأمثلة

أظهرت نماذج التشتت أداءً ممتازًا في توليد الصور. وعلى الرغم من اقتراح العديد من نماذج التجزئة الشكلية القليلة الصور (FSS) ذات هيكل شبكي مختلف، إلا أن تحسين الأداء قد وصل إلى حد أقصى. تقدم هذه الورقة أول عمل يستخدم نموذج التشتت في مهمة التجزئة الشكلية القليلة الصور (FSS)، ويدعى DifFSS. يُعد DifFSS نموذجًا جديدًا لـ FSS، ويمكنه تحسين أداء النماذج الحالية الأفضل في مجال FSS بشكل كبير دون تعديل هيكل الشبكة. وبشكل محدد، نستفيد من القدرة القوية على التوليد في نماذج التشتت لتوليد صور داعمة إضافية متنوعة باستخدام قنوات التحكم مثل القناع الشكلي، أو الرسم الخطي (scribble)، أو الحدود الناعمة (soft HED) للصورة الداعمة. ويُحاكي هذا الإجراء التنوع داخل الفئة الخاصة بالصورة المستهدفة، مثل الألوان، والتغيرات في النسيج، والإضاءة، إلخ. وبهذا، يمكن لنماذج FSS الاستناد إلى صور داعمة أكثر تنوعًا، مما يؤدي إلى تمثيلات أكثر قوة، وبالتالي تحقيق تحسن مستمر في أداء التجزئة. وقد أظهرت التجارب الواسعة على ثلاث مجموعات بيانات مفتوحة المصدر، بناءً على نماذج FSS المتقدمة الحالية، فعالية نموذج التشتت في مهمة FSS. علاوةً على ذلك، نستعرض بتفصيل تأثير إعدادات الإدخال المختلفة لنموذج التشتت على أداء التجزئة. ونأمل أن يُحدث هذا النموذج الجديد تمامًا إلهامًا لدراسة مهمة FSS المدمجة مع المحتوى المولّد بواسطة الذكاء الاصطناعي. يُمكن الوصول إلى الكود عبر الرابط: https://github.com/TrinitialChan/DifFSS