HyperAIHyperAI
منذ 17 أيام

إلكترا: تدريب مُشفّرات النص كمُميّزات بدلًا من كمُولّدات

Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning
إلكترا: تدريب مُشفّرات النص كمُميّزات بدلًا من كمُولّدات
الملخص

تُعد طرق التدريب المسبق باستخدام نمذجة اللغة المُقنعة (MLM)، مثل BERT، فعالة جدًا في تحسين الأداء عند نقل النماذج إلى مهام معالجة اللغة الطبيعية (NLP) التالية، لكنها تتطلب عادةً كميات كبيرة من الحوسبة لتحقيق نتائج مرضية. كحل بديل، نقترح مهمة تدريب مسبق أكثر كفاءة من حيث العينات تُسمى "كشف التبديل بالرمز البديل". بدلًا من إخفاء بعض الرموز باستخدام الرمز [MASK]، يُفسد هذا النهج المدخل عن طريق استبدال بعض الرموز ببدائل منطقية تم أخذها من شبكة صغيرة لتكوين النماذج (generator network). ثم، بدلًا من تدريب نموذج يتنبأ بالهوية الأصلية للرموز المُفسدة، نُدرّب نموذجًا تمييزيًا يتنبأ بـ"هل تم استبدال كل رمز في المدخل المُفسد بعينة من الشبكة المولدة أم لا؟". تُظهر التجارب الواسعة أن هذه المهمة الجديدة أكثر كفاءة من MLM، لأنها تُعرّف على جميع رموز المدخل بدلًا من الجزء الصغير فقط الذي تم إخفاؤه. نتيجة لذلك، تفوق التمثيلات السياقية التي يتعلمها نهجنا على تلك التي يتعلمها BERT، مع نفس حجم النموذج ونفس كمية البيانات والحاسوب. وتكون هذه المكاسب أقوى بشكل خاص في النماذج الصغيرة؛ فمثلاً، نُدرّب نموذجًا على بطاقة رسوميات واحدة لمدة 4 أيام، ويتفوق على GPT (الذي تم تدريبه باستخدام 30 مرة أكثر من الحوسبة) في معيار تقييم الفهم اللغوي GLUE. كما يعمل نهجنا بشكل جيد على نطاق واسع، حيث يُحقق أداءً يعادل RoBERTa وXLNet، مع استخدام أقل من ربع الحوسبة التي يستخدمها كل منهما، ويتفوق عليهما عند استخدام نفس كمية الحوسبة.