ViCE: تحسين تعلم التمثيل الكثيف من خلال التقسيم إلى فئات فائقة والتباين في تعيين المجموعات

النماذج الذاتية غير المشرفة الحديثة أظهرت أداءً مساوياً أو أفضل من الطرق المشرفة، مما فتح المجال لأنظمة الذكاء الاصطناعي لتعلم التمثيلات البصرية من بيانات شبه غير محدودة. ومع ذلك، فإن هذه الطرق تكون عادةً قائمة على التصنيف وبالتالي غير فعالة في تعلم خرائط الميزات ذات الدقة العالية التي تحتفظ بالمعلومات الفضائية الدقيقة. يقدم هذا العمل الوحدات الفائقة (superpixels) لتحسين تعلم التمثيلات البصرية الكثيفة والغنية بالمعنى بشكل ذاتي وغير مشرف. يتم تحليل الصور إلى مجموعة صغيرة من المناطق البصرية المتماسكة، مما يقلل من التعقيد الحسابي بمقدار $\mathcal{O}(1000)$ مع الحفاظ على التفاصيل. نثبت تجريبياً أن التباين عبر المناطق يحسن فعالية طرق التعلم بالتباين، ويوسع نطاق تطبيقها للصور ذات الدقة العالية، ويعزز أداء الإفراط في التقسيم (overclustering)، وأن الوحدات الفائقة أفضل من الشبكات (grids)، وأن التعتيم الإقليمي (regional masking) يحسن الأداء. يتم إظهار قوة تمثيلاتنا الكثيفة من خلال تحسين معيار تقسيم المعاني غير المشرف الأفضل حتى الآن (SOTA) على مدينة السكابس (Cityscapes)، وعلى نماذج التجعيد (convolutional models) في كوكو (COCO).