التعلم الذاتي المراقب لقطع الكائنات لتقسيم الدلالة

أحرز التعلم ذاتي التوجيه تقدماً ملحوظاً، مما أدى إلى تطوير أساليب قوية لتعلم تمثيلات صور عامة. ومع ذلك، ظل التركيز حتى الآن موجهاً بشكل رئيسي نحو التعلم على مستوى الصورة. وبالمقابل، لم تستفد المهام مثل التجزئة الصورية غير المراقبة من هذا الاتجاه، نظراً لاحتياجها إلى تمثيلات متنوعة مكانيًا. لكن تعلم التمثيلات الكثيفة يشكل تحدياً كبيراً، خاصة في السياق غير المراقب، حيث لا يوجد توجيه واضح لكيفية تدريب النموذج على استخلاص تمثيلات تتوافق مع فئات كائنات محتملة مختلفة. في هذا البحث، نجادل بأن التعلم ذاتي التوجيه للجزء الكائني (Object Parts) يُعد حلاً لهذا التحدي. فالجزء الكائني قابل للتعميم: فهو مستقل مسبقاً عن تعريف الكائن، ويمكن تجميعه لاحقاً لتكوين كائنات. لتحقيق ذلك، نستفيد من القدرة الحديثة لمحول الرؤية (Vision Transformer) على التركيز على الكائنات، ونجمعها مع مهمة تجميع مكاني كثيف لضبط الرموز المكانية. ويُظهر أسلوبنا تفوقاً على الحد الأقصى للحالة الحالية في ثلاث معايير لتجزئة معنى الصور بنسبة تتراوح بين 17% و3%، مما يدل على مرونة تمثيلاتنا تحت مختلف تعريفات الكائنات. وأخيراً، نوسع هذا النهج ليشمل التجزئة بالكامل غير المراقبة – والتي لا تستخدم أي معلومات تسمية حتى في وقت الاختبار – ونُظهر أن طريقة بسيطة لدمج الأجزاء الكائنية المكتشفة تلقائياً بناءً على كشف المجتمعات تُحقق تحسينات كبيرة.