استخراج تبايني مزدوج معادل للاعتراف الطويل الذيل

أداء الشبكات العصبية العميقة بشكل ضعيف على مجموعات البيانات التي تعاني من عدم توازن شديد في الفئات. وبالنظر إلى الأداء الواعد للتعلم التبايني، نقترح طريقة Rebalanced Siamese Contrastive Mining (ResCom) للتعامل مع التعرف على الفئات في ظل عدم التوازن. بناءً على التحليل الرياضي ونتائج المحاكاة، ندعي أن التعلم التبايني المُراقب يعاني من مشكلة توازن فئات مزدوجة على مستويي الدفعة الأصلية والدفعة السيماسية، وهي أكثر خطورة من مشكلة التعلم في التصنيف ذي التوزيع الطويل الذيل. في هذه الورقة، نُقدّم على مستوى الدفعة الأصلية خسارة تباينية مُراقبة متوازنة حسب الفئة، لتخصيص أوزان مُتكيفة لكل فئة. وعلى مستوى الدفعة السيماسية، نُقدّم قائمة متوازنة حسب الفئة، التي تحافظ على نفس عدد العناصر (الكُليات) لكل فئة. علاوةً على ذلك، لاحظنا أن تدرج الخسارة التباينية غير المتوازنة بالنسبة إلى القيم التباينية يمكن فصله إلى مكونات الموجب والسلبي، وأن الموجبات والسلبيات السهلة تؤدي إلى اختفاء تدرج التباين. ولذلك، نقترح استخراج أزواج موجبة وسلبية صعبة مُراقبة لاستخلاص أزواج مفيدة للحساب التبايني وتحسين تعلم التمثيل. وأخيرًا، ولتحقيق تقريبًا لتعظيم المعلومات التبادلية بين الرأيين، نُقدّم Softmax متوازن سيماسي، ونُدمجه مع خسارة التباين لتحقيق تدريب في خطوة واحدة. أظهرت التجارب الواسعة أن ResCom تتفوق على الطرق السابقة بفارق كبير على عدة معايير للتعرف على الفئات ذات التوزيع الطويل الذيل. تم إتاحة الكود والنماذج الخاصة بنا للجمهور عبر الرابط التالي: https://github.com/dvlab-research/ResCom.