توزيع، انتباه، وتقسيم: تقسيم غير مُراقب صفر-مُدخل باستخدام Stable Diffusion

إن إنتاج أقنعة التجزئة عالية الجودة للصور يُعد مشكلة أساسية في رؤية الحاسوب. وقد استكشفت الأبحاث الحديثة التدريب على نطاق واسع باستخدام التسميات المراقبة لتمكين التجزئة الصفرية على أي نمط صور تقريبًا، وكذلك التدريب غير المراقب لتمكين التجزئة دون الحاجة إلى تسميات كثيفة. ومع ذلك، لا يزال إنشاء نموذج قادر على تجزئة أي شيء بطريقة صفرية دون أي تسميات أمرًا صعبًا. في هذه الورقة، نقترح استخدام طبقات الانتباه الذاتي (self-attention) في نماذج التشتت المستقر (Stable Diffusion) لتحقيق هذا الهدف، نظرًا لأن النموذج المُدرّب مسبقًا على التشتت المستقر قد تعلّم مفاهيم جوهرية حول الكائنات داخل طبقات انتباهه. وبشكل محدد، نقدّم عملية دمج تكرارية بسيطة وفعّالة تعتمد على قياس انحراف كولبوج (KL divergence) بين خرائط الانتباه، لدمجها في أقنعة تجزئة صالحة. ويُعدّ هذا الأسلوب غير محتاج إلى أي تدريب أو اعتماد على اللغة لاستخراج تجزئة عالية الجودة لأي صور. وقد تفوقت طريقة الاقتراح على أحدث الأسلوب غير المراقب للتجزئة الصفرية (SOTA) في مجموعة بيانات COCO-Stuff-27 بنسبة 26% في دقة البكسل و17% في متوسط معامل جاكارد (mean IoU). يمكن الاطلاع على صفحة المشروع عبر الرابط: \url{https://sites.google.com/view/diffseg/home}.