التعلم المتناقض المزدوج للتحصيل الكتلي للكائنات

في الآونة الأخيرة، أُثبتت فعالية التعلم التمييزي للعيّنات (cluster contrastive learning) في مهام التعرف على الكائنات (object ReID) من خلال حساب خسارة التمييز بين الميزات الفردية وذاكرة العيّنات المجمعة. ومع ذلك، فإن الطرق الحالية التي تستخدم الميزات الفردية لتحديث ذاكرة العيّنات باستخدام آلية التحديث التراكمي (momentum update) تُظهر تذبذبات كبيرة عبر أمثلة التدريب، خاصةً بالنسبة للعينات الشاذة (outlier samples). على عكس آلية التحديث القائمة على العينة الفردية، فإن آلية التحديث القائمة على المركز (centroid-based updating) التي تستخدم الميزة المتوسطة لكل مجموعة لتحديث ذاكرة العيّنات المجمعة تقلل من تأثير العينات الفردية. لذلك، نحن نُصَمِّم آلتي التحديث القائمة على العينة الفردية والقائمة على المركز ضمن إطار موحد للتعلم التمييزي للعيّنات، يُسمّى إطار DCC (Dual Cluster Contrastive framework)، والذي يُحافظ على نوعين من بنوك الذاكرة: بنك ذاكرة العيّنات الفردية وبنك ذاكرة العيّنات المركزية. وبشكل ملحوظ، يُراعي بنك ذاكرة العيّنات الفردية عينة واحدة فقط في كل مرة، ويُجري خطوة واحدة لتحديثها. أما بنك ذاكرة العيّنات المركزية، فيستخدم الميزة المتوسطة لكل مجموعة لتحديث الذاكرة المرتبطة بكل مجموعة. أثناء عملية التحسين، وبالإضافة إلى خسارة التمييز الاعتيادية لكل ذاكرة، يتم تطبيق قيد اتساق بين المنظورين (cross-view consistency constraint) لتبادل الفوائد بين الذاكرةين، بهدف إنتاج وصف تمييزي دقيق للكائنات في مهام التعرف على الكائنات. من الجدير بالذكر أن إطار DCC يمكن تطبيقه بسهولة في مهام التعرف على الكائنات غير المراقبة (unsupervised) أو المراقبة (supervised) من خلال استخدام التسميات الحقيقية (ground-truth labels) أو التسميات الوهمية (pseudo-labels) المُولَّدة. وقد أظهرت التجارب الواسعة على ثلاث معايير معيارية، مثل Market-1501 وMSMT17 وVeRi-776، في سياق التعريف بالكائنات المراقب والتعريف بالكائنات غير المراقب، تفوق الأداء المُقترح من خلال إطار DCC.