إعادة التفكير في التوافق والاتساق في التجزئة الدلالية غير المراقبة

تهدف التجزئة الشكلية للصور دون إشراف (UISS) إلى تطابق السمات البصرية منخفضة المستوى مع التمثيلات على المستوى الشكلي دون إشراف خارجي. في هذا البحث، نتناول الخصائص الحاسمة من منظور محاذاة السمات ووحدانية السمات بالنسبة لنماذج UISS. كما نقوم بمقارنة بين UISS وتعلم التمثيلات على مستوى الصورة. استنادًا إلى التحليل، نرى أن الطرق القائمة على المعلومات التبادلية (MI) في UISS تعاني من انهيار التمثيل. وبناءً على ذلك، نقترح شبكة قوية تُسمى شبكة الانتباه الشكلي (SAN)، حيث نُقدّم وحدة جديدة تُسمى "الانتباه الشكلي" (SEAT) لتكوين سمات نقطية وسمات شكلية ديناميكيًا. أظهرت النتائج التجريبية على عدة معايير لتجزئة الشكلية أن إطارنا غير المُدرَّب للتجزئة الشكلية يتفوّق في استخلاص التمثيلات الشكلية، متفوّقًا على جميع الطرق غير المُدرَّبة مسبقًا، بل وحتى على بعض الطرق المُدرَّبة مسبقًا.