AC/DC: التدريب المتناوب المُضغوط/المُفكوك لشبكات العصب العميقة

تزايد المتطلبات الحسابية للشبكات العصبية العميقة (DNNs) أدى إلى اهتمام كبير بتطوير نماذج DNN شبه متباعدة (sparsely structured)، مع الحفاظ على الدقة. وقد استكشفت الدراسات الحديثة الحالة الأصعب المتمثلة في التدريب المتباعد، حيث تكون أوزان الشبكة العصبية متباعدة مسبقًا قدر الإمكان لتقليل التكاليف الحسابية أثناء التدريب. ومع أن الطرق الحالية للتدريب المتباعد غالبًا ما تكون تجريبية، فإنها تميل إلى تحقيق دقة أقل مقارنة بالأساسيات الكثيفة (dense baselines). في هذا البحث، نقدم منهجية عامة تُسمى "التدريب المتناوب المُضغوط/المُفكك" (Alternating Compressed/DeCompressed - AC/DC) للشبكات العصبية العميقة، ونُثبت تقاربًا لنسخة معينة من الخوارزمية، ونُظهر أن AC/DC يتفوق على الطرق الحالية للتدريب المتباعد من حيث الدقة عند استخدام ميزانيات حسابية مماثلة؛ كما يتفوق AC/DC حتى على الطرق الحالية التي تعتمد على نماذج كثيفة مُدرّبة مسبقًا بدقة عالية، خصوصًا عند مستويات التباعد العالية. من الخصائص المهمة لـ AC/DC هي إمكانية تدريب نموذجين كثيفين ومتبعدين معًا، مما ينتج أزواجًا من النماذج الدقيقة والمتبعدة بدقة في نهاية عملية التدريب. هذه الميزة مفيدة عمليًا، حيث يمكن استخدام النسخ المُضغوطة للاستخدام في البيئات ذات الموارد المحدودة دون الحاجة لإعادة تدريب النموذج بالكامل، كما توفر لنا رؤى حول الفجوة في الدقة بين النماذج الكثيفة والمضغوطة. يمكن الوصول إلى الشفرة المصدرية عبر الرابط التالي: https://github.com/IST-DASLab/ACDC.