Transformers دون دموع: تحسين التطبيع في الانتباه الذاتي

نُقيّم ثلاث تغييرات بسيطة تركز على التطبيع لتحسين تدريب نموذج Transformer. أولاً، نُظهر أن اتصالات التذكّر المُطبّقة مسبقًا (PreNorm) والتهيئة الصغيرة تُمكّنان من التدريب القائم على التحقق دون فترة تدفئة، باستخدام معدلات تعلم كبيرة. ثانيًا، نُقدّم تطبيع (\ell_2) مع معلمة مقياس واحدة (ScaleNorm) لتحقيق تدريب أسرع وأداءً أفضل. ثالثًا، نُعيد التأكيد على فعالية تطبيع متجهات الكلمات إلى طول ثابت (FixNorm). على خمسة أزواج ترجمة منخفضة الموارد مستمدة من مجموعات بيانات TED Talks، تضمن هذه التغييرات التقارب دائمًا، محققة متوسطًا قدره +1.1 نقطة BLEU مقارنةً بالأساليب الحالية للترجمة الثنائية، مع تحقيق نتيجة جديدة قدرها 32.8 نقطة BLEU على مهمة الترجمة الإنجليزية - الفيتنامية في IWSLT'15. ولاحظنا منحنيات أداء أكثر وضوحًا، وقيمًا ثابتة أكثر لنماذج التدرج، وعلاقة خطية بين مقياس التنشيط وعمق المُفكّك. وبشكل مفاجئ، في البيئة الغنية بالموارد (WMT'14 الإنجليزية - الألمانية)، تبقى ScaleNorm وFixNorm تنافسية، لكن PreNorm تُضعف الأداء.