منذ 17 أيام
أهمية حجم بيانات التدريب المسبق لنموذج اللغة المدمج
Vincent Micheli, Martin d', Hoffschmidt, François Fleuret

الملخص
أدى التقدم الأخير في نمذجة اللغات إلى ظهور نماذج حديثة متطورة تتطلب حسابات مكثفة وموارد كبيرة. وفي سياق السعي نحو ممارسات مستدامة، ندرس تأثير حجم بيانات التدريب المسبق على النماذج اللغوية المدمجة. تم تدريب عدة نماذج تعتمد على BERT على كميات متزايدة تدريجيًا من النصوص الفرنسية. ومن خلال التحسين الدقيق على مجموعة بيانات الإجابة عن الأسئلة الفرنسية (FQuAD)، لاحظنا أن النماذج ذات الأداء الجيد يمكن الحصول عليها باستخدام ما لا يقل عن 100 ميغابايت من النصوص. بالإضافة إلى ذلك، نُظهر أن التدريب المسبق على مرحلة وسيطة باستخدام مجموعة بيانات مخصصة للمهمة لا يؤدي إلى تحسينات كبيرة، حتى عند استخدام كميات منخفضة جدًا من بيانات التدريب المسبق.