HyperAIHyperAI

Command Palette

Search for a command to run...

GradInit: تعلّم تهيئة الشبكات العصبية لتحقيق تدريب مستقر وفعال

Chen Zhu Renkun Ni Zheng Xu Kezhi Kong W. Ronny Huang Tom Goldstein

الملخص

أدت الابتكارات في الهياكل العصبية إلى تقدم كبير في نمذجة اللغة والرؤية الحاسوبية. لسوء الحظ، غالبًا ما تؤدي الهياكل الجديدة إلى صعوبات في اختيار المعلمات الفائقة وانعدام استقرار التدريب إذا لم تُهيأ معلمات الشبكة بشكل مناسب. وقد تم اقتراح عدد من طرق التهيئة المخصصة للهياكل، لكن هذه الطرق ليست دائمًا قابلة للتطبيق على هياكل جديدة. تقدم هذه الورقة منهجية تُسمى GradInit، وهي طريقة تلقائية وغير مُتخصصة بهيكل الشبكة لتهيئة الشبكات العصبية. تعتمد GradInit على مبدأ تجريبي بسيط: يتم تعديل معيار كل طبقة في الشبكة بحيث يؤدي خطوة واحدة من خوارزمية التدرج المنحدر العشوائي (SGD) أو Adam، باستخدام معلمات فائقة محددة مسبقًا، إلى أصغر قيمة ممكنة للخطأ. يتم تحقيق هذا التعديل من خلال إدخال متغير مضاعف قياسي أمام كل كتلة من معلمات الشبكة، ثم تحسين هذه المتغيرات باستخدام خوارزمية عددية بسيطة. تُسرّع GradInit من معدل التقارب والأداء في الاختبار لعدة هياكل تلافيفية، سواء كانت تحتوي على روابط تجاوز (skip connections) أو لا، وحتى دون وجود طبقات التطبيع (Normalization layers). كما تُحسّن من استقرار الهيكل الأصلي للـ Transformer في المهام المتعلقة بالترجمة الآلية، مما يمكّن من تدريبه دون الحاجة إلى تدريب مُسبق لمعامل التعلم (learning rate warmup)، باستخدام إما Adam أو SGD، في نطاق واسع من قيم معدل التعلم ومعاملات الزخم. يمكن الوصول إلى الكود عبر الرابط: https://github.com/zhuchen03/gradinit.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
GradInit: تعلّم تهيئة الشبكات العصبية لتحقيق تدريب مستقر وفعال | مستندات | HyperAI