معاقبة المثال الصعب ولكن ليس أكثر من اللازم: أساس قوي للتصنيف البصري الدقيق
رغم التقدم الكبير المحرز في التصنيف البصري الدقيق (FGVC)، يظل التمويه الزائد (overfitting) عائقًا جوهريًا أمام تعميم النماذج. أظهرت دراسة حديثة أن الأمثلة الصعبة في مجموعة التدريب يمكن تكييفها بسهولة، لكن معظم الطرق الحالية لـ FGVC تفشل في تصنيف بعض هذه الأمثلة الصعبة في مجموعة الاختبار. والسبب يكمن في أن النموذج يُفرِّط في تكييف هذه الأمثلة الصعبة أثناء التدريب، لكنه لا يتعلم التعميم على الأمثلة غير المرئية في مجموعة الاختبار. في هذا المقال، نقترح استراتيجية تُسمى "تعديل الأمثلة الصعبة المعتدلة" (MHEM) لتعديل الأمثلة الصعبة بشكل مناسب. تُشجع استراتيجية MHEM النموذج على تجنب التمويه الزائد على الأمثلة الصعبة، مما يُعزز التعميم والتمييز. أولاً، نُقدّم ثلاث شروط ونُصاغ شكلًا عامًا لدالة الخسارة المُعدّلة. ثانيًا، نُطبّق دالة الخسارة هذه ونُقدّم قاعدة أساسية قوية لـ FGVC، حيث يمكن رفع أداء النموذج الأساسي (naive backbone) ليصبح مُComparable مع الطرق الحديثة. علاوةً على ذلك، نُظهر أن قاعدة الأساس هذه يمكن دمجها بسهولة في الطرق الحالية، مما يُعزز قدرتها على التمييز. وباستخدام قاعدتنا الأساسية القوية، نحقّق تحسينات مستمرة على ثلاث مجموعات بيانات شائعة لـ FGVC، وهي CUB-200-2011 وStanford Cars وFGVC-Aircraft. نأمل أن تُلهم فكرة تعديل الأمثلة الصعبة المعتدلة الأبحاث المستقبلية نحو تطوير تقنيات أكثر فعالية في التعرف البصري الدقيق.