تزييف اليانصيب: جعل جميع التذاكر رابحة

تتطلب العديد من التطبيقات الشبكات العصبية النادرة بسبب قيود المساحة أو زمن الاستنتاج. يوجد عدد كبير من الدراسات حول تدريب الشبكات الكثيفة للحصول على شبكات نادرة لغرض الاستنتاج، لكن هذا يحد من حجم أكبر نموذج نادر يمكن تدريبه إلى حجم أكبر نموذج كثيف يمكن تدريبه. في هذا البحث، نقدم طريقة لتدريب الشبكات العصبية النادرة بثابت عدد المعلمات وتكلفة حسابية ثابتة طوال عملية التدريب، دون التضحية بالدقة مقارنة بالطرق الحالية لتدريب الشبكات الكثيفة إلى نادرة. تعتمد طريقةنا على تحديث هيكل الشبكة النادرة أثناء التدريب باستخدام قيم مقدار المعلمات وحسابات التدرج النادرة. نُظهر أن هذا النهج يتطلب عددًا أقل من العمليات الحسابية بالنقاط العائمة (FLOPs) لتحقيق مستوى معين من الدقة مقارنة بالتقنيات السابقة. ونُظهر نتائج تدريب نادرة متميزة على مجموعة متنوعة من الشبكات والبيانات، بما في ذلك ResNet-50 وMobileNets على Imagenet-2012، وشبكات التكرار (RNNs) على WikiText-103. وأخيرًا، نقدم بعض الرؤى حول سبب قدرة السماح بتغيير الهيكل أثناء عملية التحسين على التغلب على القيم المحلية الدنيا التي تحدث عندما يظل الهيكل ثابتًا. يمكن العثور على الشيفرة المستخدمة في هذا العمل في: github.com/google-research/rigl.