منذ 8 أيام

إعادة معاملة الوزن بالحد الناعم للاستدارة القابلة للتعلم

Aditya Kusupati, Vivek Ramanujan, Raghav Somani, Mitchell Wortsman, Prateek Jain, Sham Kakade, Ali Farhadi

الملخص

تُدرَس الكثافة المنخفضة (Sparsity) في الشبكات العصبية العميقة (DNNs) على نطاق واسع، مع التركيز على تحقيق أعلى دقة في التنبؤ ضمن حد أقصى محدد لعدد المعلمات. تعتمد الطرق الحالية على ميزانيات كثافة موحدة أو غير موحدة استنادًا إلى قواعد تقديرية (heuristic)، مما يؤدي إلى توزيع غير مثالي للمعلمات على مستويات الشبكة، وبالتالي ينتج عنه إما: أ) دقة تنبؤ أقل، أو ب) تكلفة استدلال أعلى (عدد العمليات الحسابية، FLOPs). تُقدّم هذه الدراسة طريقة جديدة تُسمى إعادة تعيين الحد الناعم (Soft Threshold Reparameterization - STR)، وهي استخدام مبتكر لمشغل الحد الناعم (soft-threshold operator) على معاملات الشبكة العصبية. تُعد STR آلية تُحدث كثافة منخفضة بشكل سلس أثناء التعلم، مع تعلم حدود الحذف (pruning thresholds) في الوقت نفسه، مما يُنتج ميزانية كثافة غير موحدة. تحقق الطريقة أداءً متفوقًا على مستوى الحالة الحالية (state-of-the-art) من حيث دقة التنبؤ في حالات الكثافة غير المُنظَّمة (unstructured sparsity) ضمن الشبكات العصبية التلافيفية (CNNs)، مثل ResNet50 وMobileNetV1 على مجموعة بيانات ImageNet-1K، كما تُعلّم ميزانيات غير موحدة تقلل تجريبيًا من عدد العمليات الحسابية (FLOPs) بنسبة تصل إلى 50%. وبشكل ملحوظ، تُحسّن STR دقة التنبؤ مقارنة بالنتائج السابقة بنسبة تصل إلى 10% في النطاقات شديدة الكثافة المنخفضة (99% كثافة منخفضة)، كما يمكن استخدامها لاستحداث بنية منخفضة الرتبة (structured sparsity) في الشبكات العصبية التكرارية (RNNs). باختصار، تُعد STR آلية بسيطة تتعلم ميزانيات كثافة فعّالة، تختلف عن القواعد التقليدية والشائعة. يُمكن الاطلاع على الكود، والنموذج المُدرّب مسبقًا، وميزانيات الكثافة عبر الرابط التالي: https://github.com/RAIVNLab/STR.