HyperAIHyperAI
Back to Headlines

كيف تُبنى قوانين التوسع للذكاء الاصطناعي لتحقيق كفاءة تدريب النماذج اللغوية الكبيرة وتحقيق أقصى استفادة من الميزانية

منذ 6 أيام

تطوير قوانين التوسع الذكي للنماذج اللغوية الكبيرة (LLMs) يُعدّ حجر الأساس في تحسين كفاءة التدريب وتقليل التكاليف، خاصةً مع ارتفاع تكاليف تدريب النماذج إلى ملايين الدولارات. يُعدّ التنبؤ بأداء النموذج الكبير باستخدام نماذج أصغر وأرخص جزءًا أساسيًا من هذا السعي، حيث تعتمد هذه الطريقة على ما تُعرف بـ"قوانين التوسع"، التي تربط أداء النموذج الكبير بنتائج نماذج أصغر من نفس العائلة، بناءً على عدد المعلمات وحجم البيانات التدريبية (الـtokens). لكن التحدي يكمن في تنوع الطرق لبناء هذه القوانين، مما يصعب اتخاذ قرارات دقيقة. لحل هذه المشكلة، قام باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) وMIT-IBM Watson AI Lab، بقيادة جاكوب أندرياس، وليشيم تشوشين، ويانغ تشانغ، بجمع وتحليل بيانات من أكثر من 485 نموذجًا مُدرّبًا مسبقًا من 40 عائلة مختلفة من النماذج اللغوية الكبيرة، مثل Pythia، OPT، LLaMA، Bloom، وGPT. وشملت البيانات 1.9 مليون مقياس أداء، بما في ذلك خسائر التدريب، ونتائج المهام التالية، وتكاليف الحوسبة (FLOPs)، ونقطة التدريب، بالإضافة إلى معلومات عن البذور العشوائية. باستخدام هذه البيانات، نجح الفريق في تطبيق أكثر من 1000 قانون توسُّع، وقاس دقة التنبؤات باستخدام مقياس الخطأ النسبي المطلق (ARE)، مقارنةً بين التوقعات ونتائج النماذج الكبيرة المدربة فعليًا. وخلال التحليل، تم التوصل إلى توصيات عملية لتحسين دقة هذه القوانين. فعلى سبيل المثال، أظهرت النتائج أن تضمين نقاط تدريب وسطية (مثل 10 مليار إلى 50 مليار توكين) يُحسّن دقة التنبؤ بشكل كبير، بينما تُعتبر البيانات المبكرة قبل 10 مليار توكين ضوضاء غير مفيدة ويجب استبعادها. أيضًا، وجد الباحثون أن تدريب خمسة نماذج من أحجام مختلفة يُعدّ نقطة بداية قوية، بينما يُفضّل تدريب نموذج كبير جزئيًا (حتى 30% من البيانات) بدلاً من تدريبه بالكامل، مما يوفر تكاليف دون التضحية بالدقة. وفي حال كانت الميزانية محدودة، يمكن استعارة معلمات قانون التوسع من عائلة نموذج مشابهة في البنية، لكن هذه الطريقة قد لا تناسب النماذج ذات البنية المُشفّرة-المُفكّكة (encoder-decoder). أحد المفاجآت المهمة كانت أن النماذج الصغيرة المدربة جزئيًا لا تزال قادرة على التنبؤ بدقة، كما أن المراحل الوسطى لنموذج مدرب بالكامل يمكن استخدامها كنماذج منفصلة للتنبؤ بأداء نموذج آخر — ما يعني أن هذه البيانات لا تُهدر، بل تُستثمر بشكل ذكي. كما لاحظ الباحثون أن هناك ترابطًا قويًا بين مجموعات من المعلمات في مختلف العائلات، حيث اتضح أن ثلاث معلمات فقط كافية لتفسير معظم التباين في الأداء، ما يشير إلى أن هناك أنماطًا عامة يمكن تعميمها. في المستقبل، يخطط الفريق لتوسيع هذه الأبحاث لتشمل "قوانين التوسع أثناء الاستدلال" (inference-time scaling laws)، حيث يُصبح التحدي ليس فقط تحسين النموذج عبر التدريب، بل تحديد كمية "التفكير" الضرورية لكل طلب من المستخدم، وهو ما يكتسب أهمية متزايدة في التطبيقات العملية. هذه القوانين قد تصبح حجر الزاوية في تحسين الكفاءة التشغيلية للنماذج في الوقت الفعلي، خاصة مع التزايد المستمر في الاستخدامات اليومية للذكاء الاصطناعي.

Related Links