Command Palette
Search for a command to run...
إمكانيات التحسين من الدرجة الثانية للنماذج الكبيرة للغة: دراسة باستخدام غاوس-نيوتن الكامل
Natalie Abreu Nikhil Vyas Sham Kakade Depen Morwani

الملخص
تركز الجهود الحديثة لتسريع التدريب المسبق للنماذج الكبيرة للغة (LLM) على التقريبات الفعالة من حيث الحوسبة التي تستغل البنية من الدرجة الثانية. وهذا يطرح سؤالاً محورياً في سياق التدريب على نطاق واسع: ما مدى الأداء المفقود نتيجة هذه التقريبات؟ وللتحقق من هذا السؤال، قمنا بتحديد حدٍ علوي عملي لتعقيد التكرارات من خلال تطبيق عملية التمهيد الكاملة بأسلوب غاوس-نيوتن (GN) على نماذج الترانسفورمر التي تصل إلى 150 مليون معلمة. أظهرت تجاربنا أن تحديثات GN الكاملة تحقق مكاسب كبيرة مقارنة بالمحسنات الحالية، حيث تقلل من عدد تكرارات التدريب بنسبة 5.4 مرة مقارنة بأساليب قوية مثل SOAP وMuon. بالإضافة إلى ذلك، وجدنا أن مُهَيِّئ GN الطبقي الدقيق، الذي يتجاهل المعلومات المتبادلة بين الطبقات، يُحقق أداءً يقترب إلى حد كبير من أداء الطريقة الكاملة لـ GN. وبشكل جماعي، تشير نتائجنا إلى ما يلي: (1) أن تقريب GN فعّال للغاية في التمهيد، مما يوحي بأن الحدود ذات الدرجة الأعلى من دالة الخسارة قد لا تكون حاسمة لسرعة التقارب؛ (2) أن بنية الهسيان الطبقي تحتوي على معلومات كافية لتحقيق معظم المكاسب المحتملة؛ و(3) أن فجوة أداء كبيرة تفصل بين الطرق التقريبية الحالية وطريقة "المرآة الطبقيّة المثالية" المثالية نظريًا.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.