HyperAIHyperAI

Command Palette

Search for a command to run...

إلكترا: تدريب مُشفّرات النص كمُميّزات بدلًا من كمُولّدات

Kevin Clark Minh-Thang Luong Quoc V. Le Christopher D. Manning

الملخص

تُعد طرق التدريب المسبق باستخدام نمذجة اللغة المُقنعة (MLM)، مثل BERT، فعالة جدًا في تحسين الأداء عند نقل النماذج إلى مهام معالجة اللغة الطبيعية (NLP) التالية، لكنها تتطلب عادةً كميات كبيرة من الحوسبة لتحقيق نتائج مرضية. كحل بديل، نقترح مهمة تدريب مسبق أكثر كفاءة من حيث العينات تُسمى "كشف التبديل بالرمز البديل". بدلًا من إخفاء بعض الرموز باستخدام الرمز [MASK]، يُفسد هذا النهج المدخل عن طريق استبدال بعض الرموز ببدائل منطقية تم أخذها من شبكة صغيرة لتكوين النماذج (generator network). ثم، بدلًا من تدريب نموذج يتنبأ بالهوية الأصلية للرموز المُفسدة، نُدرّب نموذجًا تمييزيًا يتنبأ بـ"هل تم استبدال كل رمز في المدخل المُفسد بعينة من الشبكة المولدة أم لا؟". تُظهر التجارب الواسعة أن هذه المهمة الجديدة أكثر كفاءة من MLM، لأنها تُعرّف على جميع رموز المدخل بدلًا من الجزء الصغير فقط الذي تم إخفاؤه. نتيجة لذلك، تفوق التمثيلات السياقية التي يتعلمها نهجنا على تلك التي يتعلمها BERT، مع نفس حجم النموذج ونفس كمية البيانات والحاسوب. وتكون هذه المكاسب أقوى بشكل خاص في النماذج الصغيرة؛ فمثلاً، نُدرّب نموذجًا على بطاقة رسوميات واحدة لمدة 4 أيام، ويتفوق على GPT (الذي تم تدريبه باستخدام 30 مرة أكثر من الحوسبة) في معيار تقييم الفهم اللغوي GLUE. كما يعمل نهجنا بشكل جيد على نطاق واسع، حيث يُحقق أداءً يعادل RoBERTa وXLNet، مع استخدام أقل من ربع الحوسبة التي يستخدمها كل منهما، ويتفوق عليهما عند استخدام نفس كمية الحوسبة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp