HyperAI
منذ 9 أيام

قوانين التوسع المثلى لمزيج البيانات

Mustafa Shukor; Louis Bethune; Dan Busbridge; David Grangier; Enrico Fini; Alaaeldin El-Nouby; Pierre Ablin
قوانين التوسع المثلى لمزيج البيانات
الملخص

تُدَرَّب النماذج الأساسية الكبيرة عادةً على بيانات من مجالات متعددة، حيث يلعب مزيج البيانات--نسبة كل مجال مستخدم--دورًا حاسمًا في أداء النموذج. تعتمد الطريقة القياسية لاختيار هذا المزيج على التجربة والخطأ، وهو ما يصبح غير عملي للتدريب المسبق على نطاق واسع. نقترح طريقة منهجية لتحديد مزيج البيانات الأمثل لأي مجال هدف باستخدام قوانين التوسع. تتنبأ طريقتنا بدقة بخسارة نموذج بحجم $N$ تم تدريبه باستخدام $D$ رموز ومتجه وزن مجال معين $h$. نثبت جامعية هذه قوانين التوسع من خلال إظهار قوة تنبؤها في ثلاثة إعدادات مختلفة وكبيرة: التدريب المسبق للنموذج اللغوي الكبير (LLM)، النموذج متعدد الوسائط الأصيل (NMM)، والنموذج البصري الكبير (LVM). نوضح أيضًا أن هذه القوانين يمكن أن تتوقع لمزيجات بيانات جديدة وعلى نطاق مختلف: يمكن تقدير معلماتها بدقة باستخدام عدد قليل من جلسات التدريب الصغيرة، واستخدامها لتقدير الأداء على نطاقات أكبر وأوزان مجالات غير مرئية. تسمح قوانين التوسع باشتقاق أوزان المجال الأمثل لأي مجال هدف ضمن ميزانية تدريب معينة ($N$,$D$)، مما يوفر بديلاً مدروسًا للمethods التجربة والخطأ الغالية الثمن.