منذ 6 أشهر

الملخص

الطريقة القياسية لتطبيع النماذج الشبكية العصبية (NN) المستخدمة في معالجة اللغة الطبيعية (NLP) هي التطبيع الطبقي (Layer Normalization (LN)). يختلف هذا عن التطبيع بالحزمة (Batch Normalization (BN))، الذي يُستخدم على نطاق واسع في رؤية الحاسوب. ويُعزى التفضيل المطلق لـ LN في مجال NLP بشكل أساسي إلى الملاحظة التجريبية التي تُظهر أن استخدام BN بشكل بسيط (أو "عادي") يؤدي إلى تدهور كبير في الأداء بالنسبة للمهام المتعلقة بـ NLP؛ ومع ذلك، فإن الفهم العميق للسبب الكامن وراء هذا التدهور ليس دائمًا واضحًا. في هذه الورقة، نقوم بدراسة منهجية لنموذج المحولات (Transformers) في مجال NLP لفهم سبب أداء BN السيئ مقارنةً بـ LN. نجد أن الإحصائيات الخاصة ببيانات NLP عبر البُعد الحزمي (batch dimension) تُظهر تقلبات كبيرة طوال عملية التدريب. وهذا يؤدي إلى عدم استقرار إذا تم تنفيذ BN بشكل بسيط. لمعالجة هذه المشكلة، نقترح طريقة جديدة للتطبيع تُسمى التطبيع القوي (Power Normalization (PN))، والتي تحل هذه المشكلة من خلال (أ) تخفيف شرط التطبيع المُعدّل بالصفر في BN، (ب) دمج متوسط تربيعي مُتَرَقٍّ بدلًا من الإحصائيات لكل حزمة لاستقرار التقلبات، و(ج) استخدام خوارزمية اشتقاق معكوس تقريبية لدمج الإحصائيات المتراكمة في المرحلة الأمامية. نُظهر نظريًا، تحت افتراضات معتدلة، أن PN تؤدي إلى ثابت ليبشيتز أصغر للدالة الخسارة مقارنةً بـ BN. علاوةً على ذلك، نثبت أن خوارزمية الاقتراب في الارتداد (approximate backpropagation) تؤدي إلى تدرجات محدودة. وقد قمنا باختبار PN بشكل واسع على نماذج المحولات في مجموعة متنوعة من مهام NLP، ونُظهر أن أداءها يتفوق بشكل كبير على كل من LN وBN. وبشكل خاص، تتفوق PN على LN بنسبة 0.4/0.6 في معيار BLEU على مجموعتي IWSLT14/WMT14، وبنسبة 5.6/3.0 في معيار PPL على مجموعتي PTB/WikiText-103. نُقدّم رمز البرمجة الخاص بنا متاحًا للجمهور عبر الرابط: \url{https://github.com/sIncerass/powernorm}.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Sheng Shen Zhewei Yao Amir Gholami Michael W. Mahoney Kurt Keutzer

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Sheng Shen Zhewei Yao Amir Gholami Michael W. Mahoney Kurt Keutzer

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Sheng Shen Zhewei Yao Amir Gholami Michael W. Mahoney Kurt Keutzer

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PowerNorm: إعادة التفكير في التطبيع الدفعي في النماذج المحولية

Sheng Shen Zhewei Yao Amir Gholami Michael W. Mahoney Kurt Keutzer

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PowerNorm: إعادة التفكير في التطبيع الدفعي في النماذج المحولية

Sheng Shen Zhewei Yao Amir Gholami Michael W. Mahoney Kurt Keutzer

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PowerNorm: إعادة التفكير في التطبيع الدفعي في النماذج المحولية

Sheng Shen Zhewei Yao Amir Gholami Michael W. Mahoney Kurt Keutzer

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters