التدريب المدمج عبر الفئات مع استراتيجية التوازن الفئوي لتعلم مع وسوم ضوضائية
تؤدي جمع مجموعات بيانات كبيرة الحجم إلى إدخال تسميات ضوضائية بشكل لا مفر منه، مما يؤدي إلى تدهور كبير في أداء الشبكات العصبية العميقة (DNNs). وعلى الرغم من أن اختيار العينات يُعد طريقة شائعة في مجال التعلم مع التسميات الضوضائية، والتي تهدف إلى تقليل التأثير الناتج عن التسميات الضوضائية أثناء تدريب النموذج، إلا أن أداء هذه الطرق في الاختبار يُظهر تقلبات كبيرة تبعًا لدرجات الضوضاء وأنواعها المختلفة. في هذه الورقة، نقترح إطار عمل جديد يُسمى "التدريب المتقاطع-الدمج" (C2MT)، الذي لا يتأثر بالمعلومات المسبقة في عملية اختيار العينات، مما يعزز مقاومة النموذج. وفي التطبيق العملي، باستخدام بيانات تدريب مقسومة متقاطعة، يتم تدريب شبكين مختلفين بشكل متبادل باستخدام استراتيجية التدريب التعاوني (co-teaching) لعدة جولات محلية، ثم يتم دمجهما في نموذج موحد عن طريق إجراء متوسطات تجميعية (federated averages) على معاملات النموذجين بشكل دوري. بالإضافة إلى ذلك، نقدم استراتيجية توازن فئات جديدة تُسمى "استراتيجية التوازن الوسيطي" (Median Balance Strategy - MBS)، والتي تقوم بتقسيم بيانات التدريب بشكل متساوٍ إلى مجموعة مُعلّمة ومجموعة غير مُعلّمة بناءً على خصائص توزيع الخسارة المقدرة. تُظهر النتائج التجريبية الواسعة على مجموعات بيانات مُصطنعة وواقعية فعالية C2MT. سيتم إتاحة الكود على الرابط التالي: https://github.com/LanXiaoPang613/C2MT.