HyperAIHyperAI
منذ شهر واحد

التعلم التدريجي للشبكات العصبية المتكررة

Ziv Aharoni; Gal Rattner; Haim Permuter
التعلم التدريجي للشبكات العصبية المتكررة
الملخص

شبكات العصبونات التكرارية (RNNs) تحقق نتائج رائدة في العديد من مهام النمذجة من تسلسل إلى تسلسل. ومع ذلك، فإن شبكات RNN صعبة التدريب وتميل إلى المعاناة من الإفراط في التكيف (overfitting). مستوحىً من متباينة معالجة البيانات (Data Processing Inequality - DPI)، نصوغ الشبكة متعددة الطبقات كسلاسل ماركوف، ونقدم طريقة تدريب تتضمن تدريب الشبكة تدريجيًا واستخدام تقليم التدرجات على مستوى كل طبقة (layer-wise gradient clipping). وقد اكتشفنا أن تطبيق طرقنا، بالاشتراك مع طرق التنظيم والتحسين المقدمة سابقًا، أدى إلى تحسينات في الأطر الرائدة المستخدمة في مهام نمذجة اللغة.