HyperAIHyperAI
منذ 17 أيام

شِرَد لِمَا: تسريع تدريب النماذج اللغوية المسبقة من خلال التقطيع المُنظَّم

Mengzhou Xia, Tianyu Gao, Zhiyuan Zeng, Danqi Chen
شِرَد لِمَا: تسريع تدريب النماذج اللغوية المسبقة من خلال التقطيع المُنظَّم
الملخص

تُبرز شعبيّة نموذج LLaMA (Touvron et al., 2023a;b) والنموذج الكبير للغة ذات الحجم المتوسط الذي ظهر مؤخرًا إمكانات بناء نماذج لغوية كبيرة أصغر ولكنها قوية. ومع ذلك، تظل تكلفة تدريب هذه النماذج من الصفر على تريليونات الرموز مرتفعة جدًا. في هذا العمل، ندرس التقطيع الهيكلي كوسيلة فعّالة لتطوير نماذج لغوية كبيرة أصغر من نماذج كبيرة مُدرّبة مسبقًا. يعتمد نهجنا على تقنيتين رئيسيتين: (1) التقطيع الهيكلي المُوجَّه، الذي يقوم بتقليص النموذج الكبير إلى شكل مستهدف مُحدَّد من خلال إزالة الطبقات، والرؤوس، والأبعاد الوسيطة والخفية بطريقة منتهية إلى النهاية، و(2) تحميل الحزم الديناميكي، الذي يقوم بتحديث تركيبة البيانات المُستخرجة في كل حزمة تدريب ديناميكيًا بناءً على التغيرات في الخسارة عبر مجالات مختلفة. نُظهر فعالية نهجنا من خلال عرض سلسلة Sheared-LLaMA، حيث تم تقليل نموذج LLaMA2-7B إلى 1.3 مليار و2.7 مليار معامل. وتتفوّق نماذج Sheared-LLaMA على أحدث النماذج المفتوحة المصدر ذات الحجم المماثل، مثل Pythia وINCITE وOpenLLaMA ونماذج TinyLlama المُطروحة في نفس الوقت، في مجموعة واسعة من تقييمات المهام النهائية وتنضيم التعليم بالتعليمات، مع الحاجة فقط إلى 3% من حسابات التدريب مقارنةً بتدريب نماذج مماثلة من الصفر. يقدّم هذا العمل أدلة مقنعة على أن الاستفادة من النماذج الكبيرة للغة الموجودة بالفعل من خلال التقطيع الهيكلي هو نهج أكثر كفاءة من حيث التكلفة لبناء نماذج لغوية صغيرة تنافسية.

شِرَد لِمَا: تسريع تدريب النماذج اللغوية المسبقة من خلال التقطيع المُنظَّم | أحدث الأوراق البحثية | HyperAI