خسارة متوازنة حسب الصعوبة للحل التوازن بين الفئات

الانحياز الطبقي يُعد أحد التحديات الرئيسية في مجموعات البيانات الواقعية، حيث تمثل فئات قليلة (تسمى الفئات الغالبة) عددًا كبيرًا من العينات مقارنة بالبقية (التي تُسمى الفئات النادرة). يؤدي التدريب على الشبكات العصبية العميقة باستخدام مثل هذه المجموعات إلى أداء يميل غالبًا إلى الفئات الغالبة. حاولت معظم الدراسات السابقة حل مشكلة الانحياز الطبقي من خلال تخصيص أوزان أكبر للفئات النادرة بطرق مختلفة (مثل إعادة عينة البيانات أو التعلم الحساس للتكلفة). ومع ذلك، نحن نجادل بأن كمية البيانات التدريبية المتاحة قد لا تكون دائمًا مؤشرًا جيدًا لتحديد استراتيجية الترجيح، لأن بعض الفئات النادرة قد تكون ممثلة بشكل كافٍ حتى بكمية صغيرة من البيانات التدريبية. وقد يؤدي ترجيح العينات الخاصة بهذه الفئات بشكل مفرط إلى انخفاض في الأداء العام للنموذج. نحن نؤكد أن "صعوبة" الفئة من منظور النموذج هي العامل الأهم في تحديد استراتيجية الترجيح. وبناءً على ذلك، نقترح دالة خسارة جديدة تُسمى "دالة الخسارة المُوازنة حسب صعوبة الفئة" أو CDB loss، والتي تقوم بتوزيع الأوزان ديناميكيًا لكل عينة وفقًا لصعوبة الفئة التي تنتمي إليها. ويُلاحظ أن الأوزان المُخصصة تتغير ديناميكيًا مع تغير "صعوبة" الفئة بالنسبة للنموذج خلال مسار التعلم. أُجريت تجارب واسعة على مجموعات بيانات صور (MNIST المُصطنعة ذات التوازن الطبقي، CIFAR ذات التوزيع الطويل، وImageNet-LT) وبيانات فيديو (EGTEA). أظهرت النتائج أن دالة CDB loss تتفوق بشكل متسق على الدوال الخسارة المُقترحة حديثًا في مجموعات البيانات ذات الانحياز الطبقي، بغض النظر عن نوع البيانات (صورة أو فيديو).