التنزيل التدريجي العشوائي المُحَوَّل بالانتباه

في هذه الورقة، نقدم طريقة بسيطة وفعّالة يمكن إثباتها (تسمى ABSGD) لمعالجة مشكلة عدم التوازن في البيانات أو ضوضاء التسميات في التعلم العميق. تعتمد طريقة我们的 على تعديل بسيط لخوارزمية SGD ذات الزخم، حيث نُعيّن وزناً مهماً فردياً لكل عينة ضمن دفعة صغيرة (mini-batch). ويُحدد الوزن الفردي للبيانات المستمدة بشكل منهجي متناسب مع الأسّي لقيمة الخسارة المُدرَّجة للبيانات، حيث يُفسَّر معامل التدرج على أنه معلمة تنظيمية ضمن إطار التحسين المقاوم للتوزيع (DRO). ووفقًا لقيمة معامل التدرج (موجبة أم سالبة)، يُضمان تقارب ABSGD إلى نقطة ثابتة لمشكلة DRO من نوع دالة الحد الأقصى-الحد الأدنى أو الحد الأدنى-الحد الأدنى المُنظمة بالمعلومات، على التوالي. مقارنةً بالأساليب الحالية التي تعتمد على توزيع الوزن على مستوى الفئات، تتيح طريقة ABSGD اكتشاف التنوّع بين الأمثلة الفردية ضمن كل فئة. وبالمقارنة مع الطرق الحالية التي تعتمد على توزيع الوزن على مستوى الفرد باستخدام التعلم الميتا (meta-learning) والتي تتطلب ثلاث عمليات تراجع (backward propagation) لحساب متجهات التدرج العشوائية للدفعة، فإن طريقة ABSGD أكثر كفاءة، حيث تتطلب عملية تراجع واحدة فقط في كل تكرار، تمامًا كما في الأساليب القياسية للتعلم العميق. كما تمتاز ABSGD بالمرونة الكافية لدمجها مع خسائر مقاومة أخرى دون أي تكلفة إضافية. وتوحي الدراسات التجريبية على عدة مجموعات بيانات معيارية بفعالية الطريقة المقترحة.\footnote{الكود متاح على: \url{https://github.com/qiqi-helloworld/ABSGD/}}