HyperAIHyperAI
منذ 8 أيام

سبارتن: ندرة قابلة للتفاضل من خلال النقل المُنظَّم

Kai Sheng Tai, Taipeng Tian, Ser-Nam Lim
سبارتن: ندرة قابلة للتفاضل من خلال النقل المُنظَّم
الملخص

نقدم "سبارتن" (Spartan)، وهي طريقة لتدريب نماذج الشبكات العصبية النادرة بمستوى مسبق من الندرة. تعتمد سبارتن على مزيج من تقنيتين: (1) تمرير التصفية الناعمة للـ top-k للبارامترات ذات القيمة الصغيرة من خلال مشكلة نقل الأمثل المُنظَّمة، و(2) تحديثات المعلمات المستندة إلى المتوسط المزدوج مع ندرة صارمة في مرحلة التمرير الأمامي. يُحقِّق هذا الإطار توازنًا بين الاستكشاف والاستغلال: في المراحل المبكرة من التدريب، يمكن للمتعلم استكشاف أنماط ندرة متنوعة، ومع تدريج تحسين تقريب top-k الناعم خلال التدريب، يتحول التوازن نحو تحسين المعلمات بالنسبة إلى قناع ندرة ثابت. تتميز سبارتن بالمرونة الكافية لاستيعاب مجموعة متنوعة من سياسات توزيع الندرة، بما في ذلك الندرة غير المُنظَّمة والبنية المُجمَّعة (block structured)، فضلاً عن توزيع ندرة عامة حساسة للتكاليف، يُوسَّط من خلال نماذج خطية للتكاليف لكل بارامتر. وعلى تصنيف ImageNet-1K، تُنتج سبارتن نماذج ResNet-50 نادرة بنسبة 95%، ونماذج ViT-B/16 مُجمَّعة بنسبة 90%، مع خسارة مطلقة في الدقة بنسبة الـ top-1 أقل من 1% مقارنةً بالتدريب الكلي الكثيف.

سبارتن: ندرة قابلة للتفاضل من خلال النقل المُنظَّم | أحدث الأوراق البحثية | HyperAI