HyperAIHyperAI

Command Palette

Search for a command to run...

هل يجب علينا ما زال تدريب المُشفرات باستخدام نمذجة اللغة المقنعة؟

Hippolyte Gisserot-Boukhlef Nicolas Boizard Manuel Faysse Duarte M. Alves Emmanuel Malherbe Andr\u00e9 F. T. Martins C\u00e9line Hudelot Pierre Colombo

الملخص

تعلم تمثيلات النصوص عالية الجودة هو أمر أساسي لمجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). بينما اعتمد التدريب المسبق للمشفرات تقليديًا على نموذج التعلم اللغوي المقنّع (MLM)، تشير الأدلة الحديثة إلى أن نماذج المفكك التي تم تدريبها مسبقًا باستخدام نموذج التعلم اللغوي السببي (CLM) يمكن إعادة استخدامها كمشفرات بشكل فعال، وغالبًا ما تتفوق على المشفرات التقليدية في مقاييس تمثيل النص. ومع ذلك، لا يزال غير واضح ما إذا كانت هذه المكاسب تعكس ميزة جوهرية لهدف CLM أو تنبع من عوامل مشتتة مثل حجم النموذج والبيانات. في هذا البحث، نعالج هذا السؤال من خلال سلسلة من عمليات الإلغاء للتدريب المسبق بحجم كبير ومراقبة دقيقة، حيث قمنا بتدريب إجمالي 30 نموذجًا تتراوح معلماتها من 210 مليون إلى مليار معلمة، وأجرينا أكثر من 15,000 عملية ضبط دقيق وتقييم. وجدنا أنه بينما يؤدي التدريب باستخدام MLM عمومًا إلى أداء أفضل عبر مهام تمثيل النص، فإن النماذج التي تم تدريبها باستخدام CLM تكون أكثر كفاءة في البيانات وتظهر استقرارًا أفضل أثناء الضبط الدقيق. بناءً على هذه النتائج، أظهرنا تجريبيًا أن استراتيجية التدريب ثنائية المرحلة التي تطبق CLM ثم MLM بالترتيب، تحقق أداءً مثاليًا ضمن ميزانية حسابية ثابتة للتدريب. بالإضافة إلى ذلك، أثبتنا أن هذه الاستراتيجية تصبح أكثر جاذبية عند بدء التشغيل من نماذج CLM المسبقة الجاهزة (من النظام البيئي الحالي للنماذج اللغوية الكبيرة LLM)، مما يقلل من العبء الحسابي اللازم لتدريب نماذج المشفرات الرائدة في فئتها. سنقوم بإصدار جميع أجزاء المشروع في https://hf.co/MLMvsCLM لتشجيع المزيد من الأبحاث.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
هل يجب علينا ما زال تدريب المُشفرات باستخدام نمذجة اللغة المقنعة؟ | مستندات | HyperAI