تقليل الحدة المُدرَكَة لتحسين التعميم بكفاءة

في النماذج المُفرطة التخصيص اليوم، لا تُوفر قيمة خسارة التدريب ضمانات كبيرة بشأن قدرة النموذج على التعميم. في الواقع، فإن تحسين قيمة خسارة التدريب فقط، كما يُفعل عادة، يمكن أن يؤدي بسهولة إلى جودة نموذج غير مثلى. مُحفَّزين بعمل سابق ربط بين هندسة سطح الخسارة وقُدرة التعميم، نقدّم إجراءً جديدًا وفعّالًا يهدف إلى تقليل قيمة الخسارة وحدة الحدة (sharpness) بشكل متزامن. وبشكل خاص، يسعى إجراؤنا، المعروف باسم تقليل الحدة الوعية (Sharpness-Aware Minimization - SAM)، إلى إيجاد معاملات تقع ضمن جيران ذات خسارة منخفضة بشكل موحد؛ ونتيجة لهذا التصوير، يصبح لدينا مسألة تحسين من نوع دالة دُنيا-قصوى (min-max) يمكن تنفيذها بكفاءة باستخدام الانحدار التدرجي. نُقدّم نتائج تجريبية تُظهر أن SAM يُحسّن قدرة التعميم للنموذج عبر مجموعة متنوعة من مجموعات البيانات القياسية (مثل CIFAR-10، CIFAR-100، ImageNet، ومهمات التخصيص الدقيق)، مما يُحقّق أداءً جديدًا في مصاف领先 (state-of-the-art) لعدة حالات. علاوةً على ذلك، نجد أن SAM يُوفّر بشكل طبيعي مقاومة للضوضاء في التسميات تُقاس بمستوى يُعادل تلك التي توفرها الإجراءات الرائدة التي تُركّز خصيصًا على التعلّم مع تسميات ضوضاء. نُفصح عن كودنا المفتوح المصدر عبر الرابط: \url{https://github.com/google-research/sam}.