منذ 6 أشهر

الملخص

أدى التقدم الأخير في نمذجة اللغات إلى ظهور نماذج حديثة متطورة تتطلب حسابات مكثفة وموارد كبيرة. وفي سياق السعي نحو ممارسات مستدامة، ندرس تأثير حجم بيانات التدريب المسبق على النماذج اللغوية المدمجة. تم تدريب عدة نماذج تعتمد على BERT على كميات متزايدة تدريجيًا من النصوص الفرنسية. ومن خلال التحسين الدقيق على مجموعة بيانات الإجابة عن الأسئلة الفرنسية (FQuAD)، لاحظنا أن النماذج ذات الأداء الجيد يمكن الحصول عليها باستخدام ما لا يقل عن 100 ميغابايت من النصوص. بالإضافة إلى ذلك، نُظهر أن التدريب المسبق على مرحلة وسيطة باستخدام مجموعة بيانات مخصصة للمهمة لا يؤدي إلى تحسينات كبيرة، حتى عند استخدام كميات منخفضة جدًا من بيانات التدريب المسبق.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار