MEAL V2: تعزيز ResNet-50 القياسي إلى دقة أعلى من 80% في الموضع الأول على ImageNet دون استخدام حيل

نقدم إطارًا بسيطًا ولكن فعّالًا للنقل المعرفي (distillation) قادرًا على رفع دقة ResNet-50 الابتدائية إلى أكثر من 80% في المقياس Top-1 على ImageNet دون الحاجة إلى أي تقنيات مساعدة. تم بناء هذا الإطار من خلال تحليل المشكلات الموجودة في الأنظمة التصنيفية الحالية، وتبسيط طريقة نقل المعرفة المستندة إلى التمييز (ensemble knowledge distillation) من خلال المُميّزات (discriminators) من خلال: (1) تطبيق خسارة التشابه والمُميّز فقط على المخرجات النهائية؛ و(2) استخدام المتوسط الحسابي لاحتمالات softmax من جميع نماذج المعلم (teacher ensembles) كمصدر تعليم أقوى. بشكل مثير للاهتمام، نقدم ثلاث رؤى جديدة حول عملية النقل المعرفي: (1) يمكن تقليل تأثير تقليل الوزن (weight decay) أو حتى إزالته تمامًا، نظرًا لأن التسمية الناعمة (soft label) تؤدي أيضًا إلى تأثير تنظيم (regularization)؛ (2) يُعد تهيئة جيدة للطالب (student) أمرًا بالغ الأهمية؛ و(3) لا يُشترط استخدام التسمية الـ one-hot أو الصلبة (hard label) أثناء عملية النقل إذا كانت الأوزان مهيأة بشكل جيد. نُظهر أن هذا الإطار البسيط يمكنه تحقيق نتائج منافسة لأفضل النماذج الحالية دون اللجوء إلى أي تقنيات شائعة، مثل تعديل الهيكل المعماري، أو استخدام بيانات تدريب خارجية عن ImageNet، أو تقنيات مثل AutoAug/RandAug، أو معدل تعلم جيبي (cosine learning rate)، أو تدريب باستخدام Mixup/CutMix، أو تخفيف التسمية (label smoothing)، إلخ. حقق نموذجنا دقة قدرها 80.67% في المقياس Top-1 على ImageNet باستخدام مقطع واحد بحجم 224×224 وبنموذج ResNet-50 القياسي، متفوقًا بشكل ملحوظ على النماذج السابقة في نفس البنية المعمارية. يمكن اعتبار نتائجنا نقطة مرجعية قوية باستخدام تقنية نقل المعرفة، وبمعرفتنا، فإن هذه هي أول طريقة تُظهر قدرة على رفع دقة ResNet-50 القياسي لتتجاوز 80% على ImageNet دون تعديل هيكل المعمارية أو استخدام بيانات تدريب إضافية. على نموذج ResNet-18 الأصغر، يُحسّن إطارنا للنقل المعرفي بشكل متسق من 69.76% إلى 73.19%، مما يُظهر قيمته العملية الهائلة في التطبيقات الحقيقية. يمكن الوصول إلى الكود والنماذج الخاصة بنا من خلال: https://github.com/szq0214/MEAL-V2.