HyperAIHyperAI
منذ 3 أشهر

PowerNorm: إعادة التفكير في التطبيع الدفعي في النماذج المحولية

Sheng Shen, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer
PowerNorm: إعادة التفكير في التطبيع الدفعي في النماذج المحولية
الملخص

الطريقة القياسية لتطبيع النماذج الشبكية العصبية (NN) المستخدمة في معالجة اللغة الطبيعية (NLP) هي التطبيع الطبقي (Layer Normalization (LN)). يختلف هذا عن التطبيع بالحزمة (Batch Normalization (BN))، الذي يُستخدم على نطاق واسع في رؤية الحاسوب. ويُعزى التفضيل المطلق لـ LN في مجال NLP بشكل أساسي إلى الملاحظة التجريبية التي تُظهر أن استخدام BN بشكل بسيط (أو "عادي") يؤدي إلى تدهور كبير في الأداء بالنسبة للمهام المتعلقة بـ NLP؛ ومع ذلك، فإن الفهم العميق للسبب الكامن وراء هذا التدهور ليس دائمًا واضحًا. في هذه الورقة، نقوم بدراسة منهجية لنموذج المحولات (Transformers) في مجال NLP لفهم سبب أداء BN السيئ مقارنةً بـ LN. نجد أن الإحصائيات الخاصة ببيانات NLP عبر البُعد الحزمي (batch dimension) تُظهر تقلبات كبيرة طوال عملية التدريب. وهذا يؤدي إلى عدم استقرار إذا تم تنفيذ BN بشكل بسيط. لمعالجة هذه المشكلة، نقترح طريقة جديدة للتطبيع تُسمى التطبيع القوي (Power Normalization (PN))، والتي تحل هذه المشكلة من خلال (أ) تخفيف شرط التطبيع المُعدّل بالصفر في BN، (ب) دمج متوسط تربيعي مُتَرَقٍّ بدلًا من الإحصائيات لكل حزمة لاستقرار التقلبات، و(ج) استخدام خوارزمية اشتقاق معكوس تقريبية لدمج الإحصائيات المتراكمة في المرحلة الأمامية. نُظهر نظريًا، تحت افتراضات معتدلة، أن PN تؤدي إلى ثابت ليبشيتز أصغر للدالة الخسارة مقارنةً بـ BN. علاوةً على ذلك، نثبت أن خوارزمية الاقتراب في الارتداد (approximate backpropagation) تؤدي إلى تدرجات محدودة. وقد قمنا باختبار PN بشكل واسع على نماذج المحولات في مجموعة متنوعة من مهام NLP، ونُظهر أن أداءها يتفوق بشكل كبير على كل من LN وBN. وبشكل خاص، تتفوق PN على LN بنسبة 0.4/0.6 في معيار BLEU على مجموعتي IWSLT14/WMT14، وبنسبة 5.6/3.0 في معيار PPL على مجموعتي PTB/WikiText-103. نُقدّم رمز البرمجة الخاص بنا متاحًا للجمهور عبر الرابط: \url{https://github.com/sIncerass/powernorm}.