إطلاق الإمكانات المُستترة لنموذج الانتشار في التجزئة الدلالية القائمة على عدد قليل من الأمثلة

نموذج الانتشار لم يحقق إنجازات بارزة فقط في مجال توليد الصور، بل أظهر أيضًا إمكاناته كطريقة فعالة للتدريب المسبق باستخدام بيانات غير مُعلَّمة. مستمدًا من الإمكانات الواسعة التي كشف عنها نموذج الانتشار في مجالات التوافق الدلالي والتصنيف المفتوح المفردات، يبدأ عملنا بدراسة استخدام نموذج الانتشار المُخفي (Latent Diffusion Model) في مهام التصنيف الدلالي بعينات قليلة (Few-shot Semantic Segmentation). في الآونة الأخيرة، مستوحى من قدرة النماذج اللغوية الكبيرة على التعلم في السياق (in-context learning)، تطوّرت مهام التصنيف الدلالي بعينات قليلة إلى مهام التصنيف في السياق (In-context Segmentation)، مما جعلها عنصرًا محوريًا في تقييم نماذج التصنيف الشاملة. في هذا السياق، نركّز على التصنيف الدلالي بعينات قليلة، ونُسَّند بذلك أساسًا متينًا لتطوير نموذج شامل مبني على الانتشار في مجال التصنيف في المستقبل. يتركز تركيزنا الأول على فهم كيفية تفعيل التفاعل بين الصورة الطلبية (query image) والصورة الداعمة (support image)، ما أدى إلى اقتراح طريقة تكامل KV داخل إطار الانتباه الذاتي (self-attention framework). ثم نتعمق في تحسين دمج المعلومات من قناع الدعم (support mask)، وفي الوقت نفسه نُعيد تقييم كيفية تقديم إشراف مناسب من قناع الطلبية (query mask). استنادًا إلى تحليلنا، نُقدّم إطارًا بسيطًا وفعالًا يُسمى DiffewS، الذي يحافظ إلى أقصى حد على الإطار التوليدي الأصلي لنموذج الانتشار المُخفي، ويُستخدَم بفعالية في استغلال المعرفة المُدرّبة مسبقًا. تُظهر النتائج التجريبية أن طريقة العمل لدينا تتفوّق بشكل كبير على النماذج السابقة المُصنّفة كأفضل نموذج (SOTA) في مختلف البيئات.