HyperAIHyperAI
منذ 13 أيام

فرضية التذكرة الرنانة متعددة الجوائز: العثور على شبكات عصبية ثنائية دقيقة من خلال عملية القص لشبكة ذات أوزان عشوائية

James Diffenderfer, Bhavya Kailkhura
فرضية التذكرة الرنانة متعددة الجوائز: العثور على شبكات عصبية ثنائية دقيقة من خلال عملية القص لشبكة ذات أوزان عشوائية
الملخص

في الآونة الأخيرة، أظهر فرانكل وكاربين (2019) أن الشبكات الكثيفة المُعدّة عشوائيًا تحتوي على شبكة فرعية (subnetwork) يمكن العثور عليها، والتي، بمجرد اكتشافها، يمكن تدريبها للوصول إلى دقة اختبار مماثلة للشبكة الكثيفة المدربة. ومع ذلك، فإن اكتشاف هذه الشبكات الفرعية عالية الأداء يتطلب عملية مكلفة تتضمن تكرارًا لتدرب الأوزان وحذفها. في هذه الورقة، نقترح (وأثبتنا) افتراضًا أقوى لـ "فُرصة التذكرة الرابحة المتعددة" (Multi-Prize Lottery Ticket Hypothesis):تتضمن الشبكة العصبية المُفرطة التوسيع (sufficiently over-parameterized) ذات الأوزان العشوائية عدة شبكات فرعية (تُعرف بـ "التذاكر الرابحة") تحقق الشروط التالية:(a) دقة مماثلة للشبكة الكثيفة المستهدفة التي تم تدريبها باستخدام أوزان مُدرّبة (الجائزة الأولى)،(b) لا تتطلب أي تدريب إضافي لتحقيق الجائزة الأولى (الجائزة الثانية)،(c) تكون مقاومة للأشكال القصوى للكمّ (quantization)، مثل استخدام أوزان ووظائف تنشيط ثنائية (binary weights and/or activation) (الجائزة الثالثة).يُقدّم هذا النموذج منهجًا جديدًا لبناء شبكات عصبية ثنائية كثيفة ولكن دقيقة جدًا، وذلك عبر عملية حذف (pruning) وكمّ فقط للشبكات الكاملة ذات الدقة العالية التي تبدأ بقيم أوزان عشوائية. كما نقترح خوارزمية للكشف عن التذاكر الرابحة المتعددة (MPTs)، ونختبرها من خلال سلسلة من التجارب على مجموعتي بيانات CIFAR-10 وImageNet. تُظهر النتائج التجريبية أن مع تزايد عمق واتساع النماذج، تبدأ التذاكر الرابحة المتعددة في تحقيق دقة اختبار مماثلة (وأحيانًا أعلى) مقارنةً بالنماذج الأكبر حجمًا والأكثر دقة التي تم تدريبها على الأوزان. وبلا أي تحديث لقيم الأوزان على الإطلاق، تُحقق نماذجنا MPTs-1/32 أداءً جديدًا في مجال الشبكات الثنائية (SOTA) من حيث الدقة العليا (Top-1)، حيث تصل إلى 94.8% على CIFAR-10 و74.03% على ImageNet، وتفوق نماذجها المقابلة ذات الدقة الكاملة بنسبة 1.78% و0.76% على التوالي. علاوةً على ذلك، تحقق نموذج MPT-1/1 أداءً SOTA في دقة Top-1 (91.9%) للشبكات العصبية الثنائية على CIFAR-10. يمكن الوصول إلى الشفرة المصدرية والنماذج المدربة مسبقًا عبر الرابط التالي: https://github.com/chrundle/biprop.

فرضية التذكرة الرنانة متعددة الجوائز: العثور على شبكات عصبية ثنائية دقيقة من خلال عملية القص لشبكة ذات أوزان عشوائية | أحدث الأوراق البحثية | HyperAI