اكتشاف أقنعة الكائنات باستخدام المحولات للتحليل التصنيفي غير الخاضع للإشراف

تهدف مهمة التجزئة المعنى غير المراقبة إلى تجميع البكسلات في مجموعات ذات معنى معنويًا. وبشكل خاص، يجب أن تشارك البكسلات المخصصة لنفس المجموعة خصائص معنوية عالية المستوى، مثل فئة الكائن أو جزئه. تقدم هذه الورقة إطار عمل جديد يُسمى MaskDistill، مبني على ثلاث أفكار رئيسية. أولاً، ندعو إلى استراتيجية تعتمد على البيانات لإنشاء أقنعة كائنات تُستخدم كمُقدّم لتنظيم البكسلات في التجزئة المعنى. وتُلغِّ هذه الطريقة المُقدّمات اليدوية التي تُصمم غالبًا لتكوينات مشاهد معينة، وتُحد من قابلية تطبيق الأطر التنافسية. ثانيًا، يقوم MaskDistill بتجميع أقنعة الكائنات للحصول على بيانات مُحاكاة للصورة الحقيقية (pseudo-ground-truth) لتدريب نموذج أولي للتجزئة الكائنية. ثالثًا، نستفيد من هذا النموذج لتصفية أقنعة الكائنات ذات الجودة المنخفضة. وتُقلل هذه الاستراتيجية من الضوضاء في مُقدّمنا لتنظيم البكسلات، مما يؤدي إلى مجموعة نظيفة من الأقنعة نستخدمها لتدريب نموذج تجزئة نهائي. وبدمج هذه المكونات، نتمكن من تفوق كبير على الطرق السابقة في التجزئة المعنى غير المراقبة على مجموعة PASCAL (+11% mIoU) وعلى مجموعة COCO (+4% mask AP50). وبشكل مثير للاهتمام، على عكس الطرق الحالية، لا يُركّز إطارنا على ميزات الصورة منخفضة المستوى، ولا يقتصر على مجموعات بيانات تركز على الكائنات. وسيتم إتاحة الكود والنموذج.