التجريد: تُعد تقنية تقليل الشبكة (Network Pruning) من التقنيات الأساسية في تحسين كفاءة نماذج LLM، حيث تهدف إلى تقليل عدد المعلمات دون التأثير الكبير على الأداء. في هذه الدراسة، نقدم دراسة حالة حول تأثير أنماط إعادة التدريب (Retraining Variants) على فعالية تقليل الشبكة، مع التركيز على التوازن بين التقليل والحفاظ على الأداء. نختبر عدة استراتيجيات لإعادة التدريب، بما في ذلك إعادة التدريب الكامل (Full Retraining)، وإعادة التدريب الجزئي (Partial Retraining)، وإعادة التدريب باستخدام خوارزميات تقليل التدريب (Training-Free Pruning)، ونقيّم أداء كل استراتيجية من حيث دقة النموذج، وعدد المعلمات، وعدد الرموز (tokens) المطلوبة للإدخال. النتائج تُظهر أن اختيار نموذج إعادة التدريب المناسب يُعد عاملاً حاسماً في تحقيق تقليل فعّال دون فقدان الأداء، وتشير إلى أن إعادة التدريب الجزئي غالبًا ما يُحقق أفضل توازن بين الكفاءة والدقة. هذه الدراسة توفر إرشادات عملية لتطبيق تقليل الشبكة في نماذج LLM الحقيقية، مع التأكيد على أن "ما يهم" في تقليل الشبكة ليس فقط كمية التقليل، بل أيضًا نوعية إعادة التدريب المستخدمة.

التجزئة الشبكية هي طريقة فعالة لتقليل التكلفة الحسابية للشبكات العصبية المفرطة التوافقية لتنفيذها على الأنظمة ذات الموارد المحدودة. وقد أظهرت الأساليب الحديثة المتقدمة في إعادة تدريب الشبكات المجزأة، مثل إعادة تعيين الوزن (weight rewinding) وإعادة تعيين معدل التعلم (learning rate rewinding)، تفوقها على التقنية التقليدية للضبط الدقيق (fine-tuning) في استعادة الدقة المفقودة (Renda et al., 2020)، ولكن حتى الآن لا يزال غير واضح ما يفسر هذه الأداء المتميز. في هذه الدراسة، نقوم بإجراء تجارب واسعة لتأكيد وتحليل الفعالية المذهلة لإعادة تعيين معدل التعلم. ونجد أن السبب وراء نجاح إعادة تعيين معدل التعلم يكمن في استخدام معدل تعلم كبير. ويمكن ملاحظة ظاهرة مشابهة في جداول معدلات التعلم الأخرى التي تتضمن معدلات تعلم كبيرة، مثل جدول معدل التعلم الدوراني 1-cycle (Smith et al., 2019). وباستغلال جدول معدل تعلم مناسب أثناء إعادة التدريب، نُظهر ظاهرة غير متوقعة تتمثل في أن الشبكات المجزأة عشوائيًا قد تحقق أداءً أفضل من الشبكات المجزأة بطريقة منهجية (مع ضبط دقيق باستخدام النهج التقليدي). تُبرز نتائجنا الأهمية الحاسمة لجدول معدل التعلم في إعادة تدريب الشبكات المجزأة – وهي نقطة غالبًا ما تُهملها الممارسين أثناء تنفيذ تجزئة الشبكات. ملخص جملة واحدة: ندرس فعالية آليات إعادة التدريب المختلفة أثناء عملية التجزئة.