AlphaNet: تحسين تدريب الشبكات الفائقة باستخدام الانفصال ألفا

يُعدّ البحث عن البنية العصبية المُشتركة للوزن (NAS) تقنية فعّالة لتمكين تصميم هياكل الشبكات العصبية بكفاءة تلقائيًا. يُنشئ بحث NAS المُشترك للوزن شبكة فائقة (supernet) تضم جميع الهياكل كشبكات فرعية، ويتم تدريب الشبكة الفائقة والشبكات الفرعية معًا بشكل مشترك. ويعتمد نجاح بحث NAS المُشترك للوزن بشكل كبير على استخلاص المعرفة من الشبكة الفائقة إلى الشبكات الفرعية. ومع ذلك، نلاحظ أن الانحراف المُستخدَم على نطاق واسع في الاستخلاص، أي انحراف كولبوم-ليبلر (KL divergence)، قد يؤدي إلى شبكات فرعية تدرّس (طلاب) تُبالغ أو تُقلّل من تقدير عدم اليقين في الشبكة المُعلّمة (المُعلّم)، مما يُضعف أداء الشبكات الفرعية. في هذا العمل، نقترح تحسين تدريب الشبكة الفائقة باستخدام انحراف ألفا (alpha-divergence) الأكثر عمومية. وباستخدام اختيار تكيفي لانحراف ألفا، نمنع بشكل متزامن التقدير المبالغ فيه أو المُقلّل لعدم اليقين في نموذج المُعلّم. ونطبّق تدريب الشبكات الفائقة القائمة على انحراف ألفا على كل من الشبكات العصبية المُشتركة (slimmable neural networks) وبحوث NAS المُشتركة للوزن، ونُظهر تحسينات كبيرة. وبشكل خاص، تفوق نموذجنا المُكتشف، AlphaNet، على النماذج السابقة في نطاق واسع من معايير الاستهلاك الحسابي (FLOPs)، بما في ذلك BigNAS، وشبكات Once-for-All، وAttentiveNAS. وحققنا دقة Top-1 على ImageNet تبلغ 80.0% باستخدام فقط 444 مليون عملية حسابية (FLOPs). يُتاح كودنا والنماذج المُدرّبة مسبقًا على الرابط: https://github.com/facebookresearch/AlphaNet.