HyperAIHyperAI

Command Palette

Search for a command to run...

قوانين التوسع المثلى لمزيج البيانات

Mustafa Shukor Louis Bethune Dan Busbridge David Grangier Enrico Fini Alaaeldin El-Nouby Pierre Ablin

الملخص

تُدَرَّب النماذج الأساسية الكبيرة عادةً على بيانات من مجالات متعددة، حيث يلعب مزيج البيانات--نسبة كل مجال مستخدم--دورًا حاسمًا في أداء النموذج. تعتمد الطريقة القياسية لاختيار هذا المزيج على التجربة والخطأ، وهو ما يصبح غير عملي للتدريب المسبق على نطاق واسع. نقترح طريقة منهجية لتحديد مزيج البيانات الأمثل لأي مجال هدف باستخدام قوانين التوسع. تتنبأ طريقتنا بدقة بخسارة نموذج بحجم NNN تم تدريبه باستخدام DDD رموز ومتجه وزن مجال معين hhh. نثبت جامعية هذه قوانين التوسع من خلال إظهار قوة تنبؤها في ثلاثة إعدادات مختلفة وكبيرة: التدريب المسبق للنموذج اللغوي الكبير (LLM)، النموذج متعدد الوسائط الأصيل (NMM)، والنموذج البصري الكبير (LVM). نوضح أيضًا أن هذه القوانين يمكن أن تتوقع لمزيجات بيانات جديدة وعلى نطاق مختلف: يمكن تقدير معلماتها بدقة باستخدام عدد قليل من جلسات التدريب الصغيرة، واستخدامها لتقدير الأداء على نطاقات أكبر وأوزان مجالات غير مرئية. تسمح قوانين التوسع باشتقاق أوزان المجال الأمثل لأي مجال هدف ضمن ميزانية تدريب معينة (NNN,DDD)، مما يوفر بديلاً مدروسًا للمethods التجربة والخطأ الغالية الثمن.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp