تحسين نمذجة اللغة العصبية من خلال التدريب المعادي

في الآونة الأخيرة، تم إحراز تقدم كبير في نماذج اللغة باستخدام الشبكات العصبية العميقة. ومع ذلك، في الممارسة العملية، أظهرت النماذج اللغوية العصبية الكبيرة أنها عرضة للتكيف الزائد (overfitting). في هذا البحث، نقدم آلية تدريب معادية بسيطة ولكنها فعالة للغاية لتنظيم النماذج اللغوية العصبية. الفكرة هي إدخال ضوضاء معادية إلى طبقة التضمين الخرج أثناء تدريب النماذج. نوضح أن الضوضاء المعادية المثلى توفر حلاً مغلقاً بسيطاً، مما يسمح لنا بتطوير خوارزمية بسيطة وفعالة من حيث الوقت. نظرياً، نوضح أن آليتنا المعادية تشجع بشكل فعال تنوع متجهات التضمين، مما يساعد على زيادة متانة النماذج. عملياً، نوضح أن طريقتنا تحسن النتائج الرائدة لنموذج واحد في نمذجة اللغة على مجموعة بيانات Penn Treebank (PTB) وWikitext-2، حيث حققت درجات حيرة اختبارية قدرها 46.01 و38.07 على التوالي. عند تطبيقها على الترجمة الآلية، تحسن طريقتنا من مختلف خطوط الأساس القائمة على المتحولات (transformers) في درجات BLEU على مهام WMT14 الإنجليزية-الألمانية وIWSLT14 الألمانية-الإنجليزية.