التكاثف المحلي لتعلم التمثيلات البصرية دون إشراف

الطرق غير المشرفة للتعلم في الشبكات العصبية تحظى باهتمام كبير لتطوير الذكاء الاصطناعي، وذلك لأنها ستتيح تدريب الشبكات دون الحاجة إلى أعداد كبيرة من التسميات الباهظة الثمن، ولأنها ستكون نماذج أفضل للنوع العام من التعلم الذي يستخدمه البشر. ومع ذلك، فإن الشبكات غير المشرفة قد تأخرت لفترة طويلة وراء أداء نظيراتها المشرفة، خاصة في مجال التعرف على الصور على نطاق واسع. وقد أظهرت التطورات الحديثة في تدريب تمثيلات دوائر عميقة لتضخيم فصل النماذج الفردية غير المعلمة وأهداف التجميع الوعد بإغلاق هذا الفارق. هنا، نصف طريقة تقوم بتدريب دالة التمثيل لتضخيم مقياس التجميع المحلي، مما يسبب انتقال البيانات المشابهة معًا في فضاء التمثيل، بينما يُسمح للبيانات غير المشابهة بالفصل. يكون هذا مقياس التجميع ديناميكيًا، مما يسمح بظهور تجمعات ناعمة بمختلف الأحجام. قمنا بتقييم إجراءنا على عدة مجموعات بيانات للتعرف على الصور على نطاق واسع، حيث حققنا أفضل أداء للتعلم النقل غير المشرف في التعرف على الأشياء في ImageNet (إيميجز نت)، والتعرف على المناظر الطبيعية في Places 205 (بليسز 205)، وكشف الأشياء في PASCAL VOC (باسكال فوك).