UniDrop: تقنية بسيطة وفعّالة لتحسين المُحَوِّل دون تكلفة إضافية

تحقيق معمارية Transformer نجاحًا كبيرًا في مهام معالجة اللغة الطبيعية الواسعة. وقد دفعت الزيادة المفرطة في عدد المعاملات (over-parameterization) في نموذج Transformer إلى ظهور العديد من الدراسات التي تسعى لتقليل التفاصيل الزائدة (overfitting) بهدف تحسين الأداء. ومن خلال بعض الاستكشافات، لاحظنا أن تقنيات بسيطة مثل "دروبوت" (dropout) يمكن أن تُسهم بشكل كبير في تعزيز أداء النموذج عند تصميمها بعناية. وعليه، في هذا البحث، ندمج تقنيات مختلفة من الدروبوت في تدريب نماذج Transformer. وبشكل خاص، نقترح منهجًا يُسمى UniDrop، والذي يُوحد ثلاث تقنيات مختلفة من الدروبوت، تتراوح من الدقة العالية إلى الدقة المنخفضة، وهي: دروبوت الميزة (feature dropout)، ودروبوت البنية (structure dropout)، ودروبوت البيانات (data dropout). من الناحية النظرية، نُظهر أن هذه الثلاثة أنواع من الدروبوت تؤدي أدوارًا مختلفة من منظور الت régularization. ومن الناحية التجريبية، نجري تجارب على مجموعات بيانات معيارية لترجمة الآلة العصبية وتصنيف النصوص. وتُظهر النتائج الواسعة أن نموذج Transformer المُستخدم مع UniDrop يحقق تحسنًا قدره حوالي 1.5 نقطة في مقياس BLEU على مهام الترجمة IWSLT14، كما يُظهر أداءً أفضل في التصنيف حتى عند استخدام نموذج RoBERTa المُدرَّب مسبقًا القوي كأساس (backbone).