تعلم التمثيل للتكديس من خلال بناء اتفاق

في هذه الورقة، نركّز على تعلم التمثيل غير المراقب للتصنيف التجميعي للصور. تعتمد التطورات الحديثة في التجميع العميق وتعلم التمثيل غير المراقب على فكرة أن تكون الصور المختلفة المُستخرجة من نفس الصورة المدخلة (وذلك عبر تقنيات تضخيم البيانات) قريبة من بعضها في فضاء التمثيل (اتساق الأمثلة)، أو أن تكون الصور المشابهة لها تعيينات تجميعية متشابهة (اتساق السكان). نُعرّف مفهومًا إضافيًا للاتساق يُسمى "اتساق التوافق" (consensus consistency)، والذي يضمن أن يتم تعلم التمثيلات بحيث تُنتج تقسيمات متشابهة أمام تغيرات في فضاء التمثيل، أو أمام خوارزميات تجميع مختلفة، أو أمام تهيئة مختلفة لخوارزمية تجميع واحدة. نُعرّف دالة خسارة للتصنيف من خلال إجراء تغيرات في فضاء التمثيل، ونُدمج بسلاسة الثلاثة أنواع من الاتساقات (التوافق، والأمثلة، والسكان) ضمن إطار تعلّم متكامل من الطرف إلى الطرف. يُحسّن الخوارزمية المقترحة، والتي تُسمى "التجميع التوافقي باستخدام تعلم التمثيل غير المراقب" (ConCURL)، أداء التجميع مقارنة بالطرق المتطورة حديثًا على أربع من أصل خمسة مجموعات بيانات للصور. علاوةً على ذلك، نوسع إجراء التقييم للتصنيف ليُعكس التحديات التي تواجهها المهام الواقعية للتصنيف، مثل الحفاظ على أداء التجميع في حالات حدوث انزياح في التوزيع. كما نُجري دراسة تحليلية مفصلة لفهم أعمق للخوارزمية المقترحة. يمكن الوصول إلى الكود والنموذج المدرب عبر الرابط: https://github.com/JayanthRR/ConCURL_NCE.