منذ 8 أشهر

الملخص

أدت الابتكارات في الهياكل العصبية إلى تقدم كبير في نمذجة اللغة والرؤية الحاسوبية. لسوء الحظ، غالبًا ما تؤدي الهياكل الجديدة إلى صعوبات في اختيار المعلمات الفائقة وانعدام استقرار التدريب إذا لم تُهيأ معلمات الشبكة بشكل مناسب. وقد تم اقتراح عدد من طرق التهيئة المخصصة للهياكل، لكن هذه الطرق ليست دائمًا قابلة للتطبيق على هياكل جديدة. تقدم هذه الورقة منهجية تُسمى GradInit، وهي طريقة تلقائية وغير مُتخصصة بهيكل الشبكة لتهيئة الشبكات العصبية. تعتمد GradInit على مبدأ تجريبي بسيط: يتم تعديل معيار كل طبقة في الشبكة بحيث يؤدي خطوة واحدة من خوارزمية التدرج المنحدر العشوائي (SGD) أو Adam، باستخدام معلمات فائقة محددة مسبقًا، إلى أصغر قيمة ممكنة للخطأ. يتم تحقيق هذا التعديل من خلال إدخال متغير مضاعف قياسي أمام كل كتلة من معلمات الشبكة، ثم تحسين هذه المتغيرات باستخدام خوارزمية عددية بسيطة. تُسرّع GradInit من معدل التقارب والأداء في الاختبار لعدة هياكل تلافيفية، سواء كانت تحتوي على روابط تجاوز (skip connections) أو لا، وحتى دون وجود طبقات التطبيع (Normalization layers). كما تُحسّن من استقرار الهيكل الأصلي للـ Transformer في المهام المتعلقة بالترجمة الآلية، مما يمكّن من تدريبه دون الحاجة إلى تدريب مُسبق لمعامل التعلم (learning rate warmup)، باستخدام إما Adam أو SGD، في نطاق واسع من قيم معدل التعلم ومعاملات الزخم. يمكن الوصول إلى الكود عبر الرابط: https://github.com/zhuchen03/gradinit.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار