تحليل موحد للعامة لطرق إعادة الترجيح وتعديل اللوغارتم في التعلم غير المتوازن. ورقة برمجية مع كود

تتميز مجموعات البيانات الواقعية عادةً بالانحياز التوزيعي، حيث تمتلك فئات قليلة عددًا كبيرًا من العينات، بينما تكون العديد من الفئات مرتبطة بعدد قليل جدًا من العينات. نتيجة لذلك، يميل نموذج التعلم التقليدي المبني على مبدأ التقليل العام للخطأ (ERM) إلى التحيز تجاه الفئات الغالبة، مما يجعل من الصعب التعميم على الفئات القليلة. ولحل هذه المشكلة، تم اقتراح أسلوب بسيط ولكن فعّال يتمثل في تعديل دالة الخسارة لتعزيز التعلم على الفئات القليلة، مثل إعادة وزن الخسائر أو تعديل القيم المُخرَجة (logits) باستخدام حدود تعتمد على الفئة. ومع ذلك، لا تزال التحليلات النظرية للتفاوت في التعميم المتعلقة بهذه الدوال الخسارة متواضعة ومتقطعة، ولا تفسر بعض النتائج التجريبية. ولسد هذه الفجوة، نقترح تقنية جديدة تُسمى "الانكماش المعتمد على البيانات" (data-dependent contraction)، والتي تُمكّن من فهم كيفية تعامل هذه الدوال المُعدّلة مع الفئات المختلفة. بناءً على هذه التقنية، تم إثبات حد تعميم دقيق (fine-grained generalization bound) للتعلم في البيئات غير المتوازنة، مما يساعد على كشف أسرار إعادة الوزن وتعديل الـ logits بشكل موحد. علاوةً على ذلك، تم تطوير خوارزمية تعلم مبنية على هذه الرؤى النظرية. وأخيرًا، أظهرت النتائج التجريبية على مجموعات بيانات معيارية صحة النتائج النظرية، وثبتت فعالية الطريقة المقترحة.