C3: تجميع تناقي موجه عبر المثيلات

الترقيم هو المهمة التي تتمثل في جمع العينات المشابهة من البيانات في مجموعات (كلاسترات) دون استخدام أي تسميات مسبقة. وقد تم دراسة هذا المجال على نطاق واسع في الأدبيات المتعلقة بالتعلم الآلي، وقد أعادت التطورات الحديثة في التعلم العميق إحياء الاهتمام بهذا المجال. تُعد نماذج الترقيم التبايني (CC) جزءًا أساسيًا من الترقيم العميق، حيث يتم إنشاء أزواج إيجابية وسلبية لكل عينة بيانات من خلال تقنيات تحسين البيانات (Data Augmentation). وتهدف نماذج CC إلى تعلم فضاء ميزات حيث تُجمَع تمثيلات العينات على مستوى الفرد (instance-level) وتمثيلات المجموعات على مستوى المجموعة (cluster-level) للأزواج الإيجابية معًا. وعلى الرغم من تحسينها لأفضل الأداء الحالي (SOTA)، إلا أن هذه الخوارزميات تتجاهل الأنماط المتقاطعة بين العينات (cross-instance patterns)، والتي تحمل معلومات أساسية لتحسين أداء الترقيم. وهذا يُزيد من معدل الأزواج السلبية الخاطئة (false-negative-pair rate) ويقلل من معدل الأزواج الإيجابية الصحيحة (true-positive-pair rate). في هذا البحث، نقترح طريقة جديدة للترقيم التبايني تُسمى الترقيم التبايني المُرشد بالعلاقة بين العينات (C3)، والتي تأخذ بعين الاعتبار العلاقات بين العينات المختلفة لزيادة عدد الأزواج الإيجابية وتقليل تأثير الأزواج الخاطئة، والعينات الضوضائية، والعينات الشاذة (anomaly) على التمثيل المتعلم للبيانات. وبشكل خاص، نُعرّف دالة خسارة جديدة تُحدد العينات المشابهة باستخدام التمثيل على مستوى الفرد، وتشجعها على التجمع معًا. علاوةً على ذلك، نقترح طريقة جديدة للوزن لاختيار العينات السلبية بطريقة أكثر كفاءة. أظهرت التقييمات التجريبية الواسعة أن الطريقة المقترحة تتفوق على الخوارزميات الرائدة في مجال الترقيم على مجموعات بيانات الرؤية الحاسوبية القياسية: حيث تم تحسين دقة الترقيم بنسبة 6.6% و3.3% و5.0% و1.3% و0.3% على مجموعات بيانات CIFAR-10 وCIFAR-100 وImageNet-10 وImageNet-Dogs وTiny-ImageNet على التوالي.