ترانسفغو: نهج من الأعلى إلى الأسفل للتحليل الدقيق غير المراقب للدلالات

يهدف التجزئة الشمولية غير المُعلَّمة إلى استخلاص تمثيل شمولي عالي المستوى من الميزات البصرية منخفضة المستوى دون الحاجة إلى تسميات يدوية. تعتمد معظم الطرق الحالية على نهج تراكمي من الأسفل إلى الأعلى، حيث تحاول تجميع البكسلات في مناطق بناءً على مؤشرات بصرية أو قواعد محددة مسبقًا. نتيجة لذلك، يصعب على هذه الطرق التراكمية من الأسفل إنتاج تجزئة شمولية دقيقة في المشاهد المعقدة التي تحتوي على عدة كائنات، وبخاصة عندما تتشابه بعض الكائنات في المظهر البصري. على النقيض من ذلك، نقترح أول إطار عمل لتجزئة شمولية غير مُعلَّمة من الأعلى إلى الأسفل، مُصممًا لتقديم تجزئة دقيقة جدًا في السياقات المعقدة جدًا. وبشكل محدد، نحصل أولًا على معلومات غنية ومنظمة من المستويات العليا حول المفاهيم الشمولية من بيانات بصرية ضخمة بطريقة تعلم ذاتي (Self-supervised)، ثم نستخدم هذه المعلومات كمعلومة سابقة لاكتشاف الفئات الشمولية المحتملة المُتَوَجِّدة في مجموعات البيانات المستهدفة. ثانيًا، يتم تطبيق التمثيل الشمولي العالي المستوى المُكتشف على الميزات البصرية منخفضة المستوى من خلال حساب خريطة التنشيط الفئوي (Class Activation Map - CAM) بالنسبة لتمثيل شمولي معين مُكتشف. وأخيرًا، تُستخدم الخرائط المُحصلة (CAMs) كتسميات وهمية (Pseudo Labels) لتدريب وحدة التجزئة وإنتاج التجزئة الشمولية النهائية. أظهرت النتائج التجريبية على عدة معايير لتجزئة شمولية أن نهجنا من الأعلى إلى الأسفل غير المُعلَّم يتمتع بالثبات تجاه كلا نوعي المجموعات: المجموعات المركزية حول الكائن (Object-centric) والمركّزة حول المشهد (Scene-centric)، على مختلف مستويات الدقة الشمولية، ويتفوق على جميع الطرق المتطورة الحالية التي تعتمد على النهج التراكمي من الأسفل. يمكن الوصول إلى الكود الخاص بنا عبر الرابط: \url{https://github.com/damo-cv/TransFGU}.