HyperAI

تطوير نماذج لغوية كبيرة (LLMs) يتطلب قرارات مكلفة تتعلق بالبنية المعمارية، وعدد المعاملات (البارامترات)، وحجم البيانات التدريبية، وتقنيات التدريب، وكل ذلك ضمن ميزانية محدودة. لتحسين اتخاذ هذه القرارات، يعتمد الباحثون على "قوانين التوسع" (scaling laws)، وهي أدوات رياضية تستخدم أداء نماذج صغيرة ورخيصة لتقدير أداء نموذج كبير مستقبلي، مما يقلل الحاجة إلى تدريب نماذج ضخمة بشكل كامل. لكن المشكلة تكمن في أن هناك مئات الطرق لبناء قوانين توسع، مما يجعل النتائج غير متسقة أو غير موثوقة. لمعالجة هذه المشكلة، قام باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) وMIT-IBM Watson AI Lab، بقيادة جاكوب أندراس، وليشم تشوشين، ويانغ تشانغ، بجمع بيانات من 485 نموذجًا مُدرّبًا مسبقًا من 40 عائلة مختلفة من النماذج، مثل LLaMA، OPT، Pythia، GPT، وBloom، إلى جانب 1.9 مليون مقياس أداء يشمل الخسارة (loss) والنتائج في مهام تطبيقية. باستخدام هذه البيانات، نجحوا في تطبيق أكثر من 1000 قانون توسع، ومقارنة دقة التنبؤات عبر أنواع مختلفة من المعماريات، وحجم النماذج، وسياقات التدريب. واعتمدوا معيار الخطأ النسبي المطلق (ARE) لقياس مدى دقة التنبؤات مقارنة بالنتائج الفعلية للنماذج الكبيرة المدربة بالكامل. أظهرت النتائج أن تضمين نقاط تدريب وسطية (intermediate checkpoints)، بدلًا من الاعتماد فقط على الخسارة النهائية، يحسن دقة التنبؤ، خاصة إذا تم التخلص من البيانات المبكرة التي تقل عن 10 مليار رمز. كما أشار الباحثون إلى أن تدريب خمسة نماذج مختلفة في نطاق حجمي متنوع يُعد نقطة انطلاق قوية، ويوفر مرونة أكبر من التوسع في حجم النموذج فقط. أظهرت الدراسة أن التدريب الجزئي للنموذج المستهدف حتى 30% من البيانات يكفي لتقدير أداء النموذج الكبير، مما يوفر تكاليف هائلة. وفي حال كانت الميزانية محدودة جدًا، يمكن الاستفادة من قوانين توسع من عائلة نموذج مشابهة من حيث المعمارية، مع تحذير خاص بخصوص النماذج من نوع encoder-decoder. من المفاجآت المهمة أن النماذج الصغيرة الجزئية المدربة تظل قادرة على التنبؤ بدقة، كما أن مراحل التدريب الوسطى من نموذج مكتمل يمكن استخدامها كنماذج منفصلة للتنبؤ بأداء نموذج آخر – دون تكاليف إضافية، لأنها تُنتج تلقائيًا أثناء التدريب. كما لاحظ الباحثون أن التباين بين العائلات المختلفة كان أكبر مما كان متوقعًا، لكنهم وجدوا ارتباطًا قويًا بين مجموعات من المعلمات، حيث تفسر ثلاث من خمس معلمات فقط معظم التغيرات في السلوك، ما يشير إلى أن هناك أنماطًا عامة يمكن استخلاصها. في المستقبل، يخطط الفريق لتوسيع التحليل ليشمل "قوانين التوسع في وقت التشغيل" (inference-time scaling laws)، التي تقيس كمية التفكير المطلوبة للنموذج عند كل استفسار، وهو أمر بالغ الأهمية في التطبيقات الحقيقية حيث يتطلب كل سؤال تقييمًا دقيقًا لمستوى التفكير المطلوب. الدراسة، المقدمة في مؤتمر ICML 2025، تقدم دليلاً عمليًا وشاملاً يُسهّل على الباحثين، حتى من فرق صغيرة، استخدام قوانين التوسع بشكل فعّال وموثوق، مما يُسهم في تعميم الابتكار في مجال الذكاء الاصطناعي وخفض حواجز الدخول.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

دليل شامل لقوانين التوسع في الذكاء الاصطناعي يُقدّر أداء النماذج اللغوية الكبيرة بناءً على نماذج أصغر من نفس العائلة

الروابط ذات الصلة

Command Palette

دليل شامل لقوانين التوسع في الذكاء الاصطناعي يُقدّر أداء النماذج اللغوية الكبيرة بناءً على نماذج أصغر من نفس العائلة

الروابط ذات الصلة

Command Palette

دليل شامل لقوانين التوسع في الذكاء الاصطناعي يُقدّر أداء النماذج اللغوية الكبيرة بناءً على نماذج أصغر من نفس العائلة

الروابط ذات الصلة