HyperAIHyperAI
منذ 17 أيام

أهمية حجم بيانات التدريب المسبق لنموذج اللغة المدمج

Vincent Micheli, Martin d&#39, Hoffschmidt, François Fleuret
أهمية حجم بيانات التدريب المسبق لنموذج اللغة المدمج
الملخص

أدى التقدم الأخير في نمذجة اللغات إلى ظهور نماذج حديثة متطورة تتطلب حسابات مكثفة وموارد كبيرة. وفي سياق السعي نحو ممارسات مستدامة، ندرس تأثير حجم بيانات التدريب المسبق على النماذج اللغوية المدمجة. تم تدريب عدة نماذج تعتمد على BERT على كميات متزايدة تدريجيًا من النصوص الفرنسية. ومن خلال التحسين الدقيق على مجموعة بيانات الإجابة عن الأسئلة الفرنسية (FQuAD)، لاحظنا أن النماذج ذات الأداء الجيد يمكن الحصول عليها باستخدام ما لا يقل عن 100 ميغابايت من النصوص. بالإضافة إلى ذلك، نُظهر أن التدريب المسبق على مرحلة وسيطة باستخدام مجموعة بيانات مخصصة للمهمة لا يؤدي إلى تحسينات كبيرة، حتى عند استخدام كميات منخفضة جدًا من بيانات التدريب المسبق.