HyperAIHyperAI

Command Palette

Search for a command to run...

Transformers دون دموع: تحسين التطبيع في الانتباه الذاتي

Toan Q. Nguyen Julian Salazar

الملخص

نُقيّم ثلاث تغييرات بسيطة تركز على التطبيع لتحسين تدريب نموذج Transformer. أولاً، نُظهر أن اتصالات التذكّر المُطبّقة مسبقًا (PreNorm) والتهيئة الصغيرة تُمكّنان من التدريب القائم على التحقق دون فترة تدفئة، باستخدام معدلات تعلم كبيرة. ثانيًا، نُقدّم تطبيع (\ell_2) مع معلمة مقياس واحدة (ScaleNorm) لتحقيق تدريب أسرع وأداءً أفضل. ثالثًا، نُعيد التأكيد على فعالية تطبيع متجهات الكلمات إلى طول ثابت (FixNorm). على خمسة أزواج ترجمة منخفضة الموارد مستمدة من مجموعات بيانات TED Talks، تضمن هذه التغييرات التقارب دائمًا، محققة متوسطًا قدره +1.1 نقطة BLEU مقارنةً بالأساليب الحالية للترجمة الثنائية، مع تحقيق نتيجة جديدة قدرها 32.8 نقطة BLEU على مهمة الترجمة الإنجليزية - الفيتنامية في IWSLT'15. ولاحظنا منحنيات أداء أكثر وضوحًا، وقيمًا ثابتة أكثر لنماذج التدرج، وعلاقة خطية بين مقياس التنشيط وعمق المُفكّك. وبشكل مفاجئ، في البيئة الغنية بالموارد (WMT'14 الإنجليزية - الألمانية)، تبقى ScaleNorm وFixNorm تنافسية، لكن PreNorm تُضعف الأداء.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Transformers دون دموع: تحسين التطبيع في الانتباه الذاتي | مستندات | HyperAI