HyperAIHyperAI
منذ 17 أيام

إطار إحصائي للتدريب بعرض نطاق منخفض لشبكات العصب العميقة

Jianfei Chen, Yu Gai, Zhewei Yao, Michael W. Mahoney, Joseph E. Gonzalez
إطار إحصائي للتدريب بعرض نطاق منخفض لشبكات العصب العميقة
الملخص

التدريب الكلي الكمي (FQT)، الذي يستخدم أجهزة ذات عرض بت منخفض من خلال كمية التنشيطات، والوزن، والانحدارات في نموذج شبكة عصبية، يُعد من الأساليب الواعدة لتسريع تدريب الشبكات العصبية العميقة. أحد التحديات الرئيسية المتعلقة بـ FQT هو نقص الفهم النظري، وخاصةً تأثير كمية الانحدار على خصائص التقارب. في هذه الورقة، نعالج هذه المشكلة من خلال تقديم إطار إحصائي لتحليل خوارزميات FQT. ننظر إلى الانحدار الكمي في FQT كمُقدّر عشوائي لانحداره المقابل بدقة كاملة، وهي عملية تُعرف بتدريب واعٍ بالكمية (QAT). ونُظهر أن الانحدار في FQT هو مُقدّر غير مُحيّز للانحدار في QAT، ونناقش تأثير كمية الانحدار على تباينه. مستوحين من هذه النتائج النظرية، نطوّر نوعين جديدين من كمّات الانحدار، ونُظهر أن كلاهما يمتلك تباينًا أقل من كمية المصفوفة الواحدة (per-tensor) الموجودة حاليًا. وبالنسبة لتدريب نموذج ResNet-50 على مجموعة بيانات ImageNet، حقق كمية الانحدار الكتلية المبنية على تحويل هوسدور (block Householder) بـ 5 بت خسارة دقة تحقق فقط بنسبة 0.5% مقارنةً بـ QAT، وهي أداء مماثل للقاعدة الحالية باستخدام INT8.

إطار إحصائي للتدريب بعرض نطاق منخفض لشبكات العصب العميقة | أحدث الأوراق البحثية | HyperAI