HyperAIHyperAI

Command Palette

Search for a command to run...

إمكانيات التحسين من الدرجة الثانية للنماذج الكبيرة للغة: دراسة باستخدام غاوس-نيوتن الكامل

Natalie Abreu Nikhil Vyas Sham Kakade Depen Morwani

الملخص

تركز الجهود الحديثة لتسريع التدريب المسبق للنماذج الكبيرة للغة (LLM) على التقريبات الفعالة من حيث الحوسبة التي تستغل البنية من الدرجة الثانية. وهذا يطرح سؤالاً محورياً في سياق التدريب على نطاق واسع: ما مدى الأداء المفقود نتيجة هذه التقريبات؟ وللتحقق من هذا السؤال، قمنا بتحديد حدٍ علوي عملي لتعقيد التكرارات من خلال تطبيق عملية التمهيد الكاملة بأسلوب غاوس-نيوتن (GN) على نماذج الترانسفورمر التي تصل إلى 150 مليون معلمة. أظهرت تجاربنا أن تحديثات GN الكاملة تحقق مكاسب كبيرة مقارنة بالمحسنات الحالية، حيث تقلل من عدد تكرارات التدريب بنسبة 5.4 مرة مقارنة بأساليب قوية مثل SOAP وMuon. بالإضافة إلى ذلك، وجدنا أن مُهَيِّئ GN الطبقي الدقيق، الذي يتجاهل المعلومات المتبادلة بين الطبقات، يُحقق أداءً يقترب إلى حد كبير من أداء الطريقة الكاملة لـ GN. وبشكل جماعي، تشير نتائجنا إلى ما يلي: (1) أن تقريب GN فعّال للغاية في التمهيد، مما يوحي بأن الحدود ذات الدرجة الأعلى من دالة الخسارة قد لا تكون حاسمة لسرعة التقارب؛ (2) أن بنية الهسيان الطبقي تحتوي على معلومات كافية لتحقيق معظم المكاسب المحتملة؛ و(3) أن فجوة أداء كبيرة تفصل بين الطرق التقريبية الحالية وطريقة "المرآة الطبقيّة المثالية" المثالية نظريًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إمكانيات التحسين من الدرجة الثانية للنماذج الكبيرة للغة: دراسة باستخدام غاوس-نيوتن الكامل | مستندات | HyperAI