HyperAIHyperAI

Command Palette

Search for a command to run...

إحياء الشبكات العصبية المتكررة للتوالي الطويلة

Antonio Orvieto Samuel I. Smith Albert Gu Anushan Fernando Caglar Gulcehre Razvan Pascanu Soham De

الملخص

تقدم الشبكات العصبية التكرارية (RNNs) استدلالًا سريعًا على التسلسلات الطويلة، ولكنها صعبة في التحسين وبطيئة في التدريب. وقد أظهرت نماذج الفضاء الحالة العميقة (SSMs) مؤخرًا أدائها المتميز في مهام نمذجة التسلسلات الطويلة، مع فوائد إضافية تتمثل في التدريب القابل للموازاة بسرعة والاستدلال السريع المشابه لـ RNNs. ومع ذلك، بينما تبدو نماذج الفضاء الحالة سطحيًا مشابهة لـ RNNs، هناك اختلافات مهمة تجعل من غير واضح مصدر زيادة أدائها مقارنة بـ RNNs. في هذا البحث، نوضح أن تصميم الشبكات العصبية التكرارية العميقة بعناية باستخدام حجج انتشار الإشارة القياسية يمكن أن يستعيد الأداء المثير للإعجاب لنماذج الفضاء الحالة العميقة في مهام الاستدلال على المدى الطويل، مع مطابقة سرعة تدريبها أيضًا. لتحقيق هذا الهدف، قمنا بتحليل وتجريد سلسلة من التغييرات على الشبكات العصبية التكرارية القياسية، بما في ذلك تحويل الدورة إلى خطية وإلى قطرية، استخدام أفضل المعلمات والتوصيفات الأولية، وضمان تطبيع صحيح للمرور الأمامي. توفر نتائجنا رؤى جديدة حول أصول الأداء المتميز لنماذج الفضاء الحالة العميقة، بينما تقوم أيضًا بتقديم كتلة RNN تسمى الوحدة التكرارية الخطية التي تتطابق مع أدائها وكفاءتها الحسابية على مقاييس Long Range Arena.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp