HyperAIHyperAI
منذ شهر واحد

شبكات الطريق المتكررة

Julian Georg Zilly; Rupesh Kumar Srivastava; Jan Koutník; Jürgen Schmidhuber
شبكات الطريق المتكررة
الملخص

تتطلب العديد من مهام المعالجة التسلسلية وظائف انتقال غير خطية معقدة من خطوة إلى أخرى. ومع ذلك، تظل الشبكات العصبية المتكررة ذات الوظائف الانتقالية "العميقة" صعبة التدريب، حتى عند استخدام شبكات الذاكرة قصيرة المدى طويلة (LSTM). نقدم تحليلًا نظريًا جديدًا للشبكات المتكررة يعتمد على نظرية الدائرة جيرشغورين (Gersgorin's circle theorem) والذي يلقي الضوء على عدة قضايا في النمذجة والتحسين ويحسن فهمنا لخلية LSTM. بناءً على هذا التحليل، نقترح شبكات الطريق السريع المتكررة (Recurrent Highway Networks)، والتي تمتد هندسة LSTM لتساعد في زيادة عمق الانتقال من خطوة إلى أخرى لأكثر من واحد. أظهرت عدة تجارب في نمذجة اللغة أن الهندسة المقترحة تؤدي إلى نماذج قوية وكفiciente. على مجموعة بيانات Penn Treebank، فإن زيادة عمق الانتقال من 1 إلى 10 تحسن حيرة الكلمات (word-level perplexity) من 90.6 إلى 65.4 باستخدام نفس عدد المعلمات. وعلى مجموعات البيانات الأكبر لتنبؤ الحروف من ويكيبيديا (text8 و enwik8)، حققت شبكات الطريق السريع المتكررة (RHNs) أفضل النتائج السابقة وأحرزت معدلاً للانتروبيا بلغ 1.27 بت لكل حرف.请注意,对于一些不常见的术语,我在阿拉伯语译文后加了括号并标注了原文,以确保信息的完整性。例如:“ Gerardos' circle theorem (نظرية الدائرة جيرشغورين)” 和 “Recurrent Highway Networks (شبكات الطريق السريع المتكررة)”。