HyperAIHyperAI
منذ 2 أشهر

إحياء الشبكات العصبية المتكررة للتوالي الطويلة

Antonio Orvieto; Samuel L Smith; Albert Gu; Anushan Fernando; Caglar Gulcehre; Razvan Pascanu; Soham De
إحياء الشبكات العصبية المتكررة للتوالي الطويلة
الملخص

تقدم الشبكات العصبية التكرارية (RNNs) استدلالًا سريعًا على التسلسلات الطويلة، ولكنها صعبة في التحسين وبطيئة في التدريب. وقد أظهرت نماذج الفضاء الحالة العميقة (SSMs) مؤخرًا أدائها المتميز في مهام نمذجة التسلسلات الطويلة، مع فوائد إضافية تتمثل في التدريب القابل للموازاة بسرعة والاستدلال السريع المشابه لـ RNNs. ومع ذلك، بينما تبدو نماذج الفضاء الحالة سطحيًا مشابهة لـ RNNs، هناك اختلافات مهمة تجعل من غير واضح مصدر زيادة أدائها مقارنة بـ RNNs. في هذا البحث، نوضح أن تصميم الشبكات العصبية التكرارية العميقة بعناية باستخدام حجج انتشار الإشارة القياسية يمكن أن يستعيد الأداء المثير للإعجاب لنماذج الفضاء الحالة العميقة في مهام الاستدلال على المدى الطويل، مع مطابقة سرعة تدريبها أيضًا. لتحقيق هذا الهدف، قمنا بتحليل وتجريد سلسلة من التغييرات على الشبكات العصبية التكرارية القياسية، بما في ذلك تحويل الدورة إلى خطية وإلى قطرية، استخدام أفضل المعلمات والتوصيفات الأولية، وضمان تطبيع صحيح للمرور الأمامي. توفر نتائجنا رؤى جديدة حول أصول الأداء المتميز لنماذج الفضاء الحالة العميقة، بينما تقوم أيضًا بتقديم كتلة RNN تسمى الوحدة التكرارية الخطية التي تتطابق مع أدائها وكفاءتها الحسابية على مقاييس Long Range Arena.

إحياء الشبكات العصبية المتكررة للتوالي الطويلة | أحدث الأوراق البحثية | HyperAI