DeepCut: تقسيم غير مشرف باستخدام تجميع الشبكات العصبية الرسومية

تقسيم الصور هو مهمة أساسية في رؤية الحاسوب. يمكن أن يكون تسمية البيانات لتدريب الطرق المراقبة مرهقًا، مما يحفز على استخدام الطرق غير المراقبة. غالبًا ما تعتمد النهج الحالية على استخراج الخصائص العميقة من الشبكات المدربة مسبقًا لبناء الرسم البياني، ثم يتم تطبيق طرق التجميع التقليدية مثل k-means والتقطيع المُعَيَّر (normalized-cuts) كخطوة معالجة ما بعد. ومع ذلك، فإن هذا النهج يقلل من المعلومات ذات الأبعاد العالية المشفرة في الخصائص إلى ارتباطات ثنائية قياسية. لمعالجة هذه القِيد، يقدم هذا البحث شبكة عصبية بيانية خفيفة (GNN) لتحل محل طرق التجميع التقليدية مع تحقيق نفس دالة الهدف للتجميع. بخلاف الطرق الموجودة، تستقبل شبكتنا العصبية البيانية كلًّا من الارتباطات الثنائية بين خصائص الصورة المحلية والخصائص الخام كمدخلات. يتيح هذا الاتصال المباشر بين الخصائص الخام ودالة هدف التجميع لنا إجراء تصنيف ضمني للusters بين الرسوم البيانية المختلفة، مما يؤدي إلى تقسيم الدلالات الجزئية دون الحاجة إلى خطوات معالجة ما بعد إضافية. نوضح كيف يمكن صياغة أهداف التجميع التقليدية كدوال خسارة ذاتية الإشراف لتدريب GNN لتقسيم الصور. بالإضافة إلى ذلك، نستخدم هدف التجميع المرتبط (Correlation-Clustering - CC) لأداء التجميع دون تحديد عدد الكتل، مما يسمح بالتجميع بدون k. نطبق الطريقة المقترحة في مهام تحديد موقع الأشياء، وتقسيمها، وتقسيم الدلالات الجزئية لها، حيث تتفوق على أفضل الأداء الحالي في العديد من المقاييس.