HyperAIHyperAI
منذ شهر واحد

نماذج التوازن العميقة

Shaojie Bai; J. Zico Kolter; Vladlen Koltun
نماذج التوازن العميقة
الملخص

نقدم نهجًا جديدًا لنمذجة البيانات التسلسلية: نموذج التوازن العميق (DEQ). مستوحى من ملاحظة أن الطبقات المخفية لعديد من النماذج العميقة الحالية للبيانات التسلسلية تتقارب نحو نقطة ثابتة، نقترح نهج DEQ الذي يجد هذه النقاط التوازنية مباشرة عبر البحث عن الجذر. مثل هذا الأسلوب يعادل تشغيل شبكة تغذية قدامية ذات عمق لا نهائي (مرتبطة الوزن)، ولكنه يتميز بميزة أنه يمكننا إجراء الانتشار العكسي التحليلي عبر النقطة التوازنية باستخدام الاشتقاق الضمني. باستخدام هذا النهج، تتطلب التدريب والتوقع في هذه الشبكات ذاكرة ثابتة فقط، بغض النظر عن العمق الفعلي للشبكة. نوضح كيف يمكن تطبيق DEQs على نوعين رائدين من النماذج العميقة للتسلسلات: متحولات الانتباه الذاتي وشبكات trellis. في مهام النمذجة اللغوية الكبيرة الحجم، مثل معيار WikiText-103، نظهر أن DEQs 1) غالبًا ما تحسن الأداء فوق هذه النماذج الرائدة (لأعداد معلمات مشابهة)؛ 2) لديها متطلبات حسابية مشابهة للنماذج الحالية؛ و 3) تقلل بشكل كبير من استهلاك الذاكرة (غالبًا ما تكون نقطة الانغلاق في تدريب النماذج التسلسلية الكبيرة)، مما يدل على خفض بنسبة تصل إلى 88% في استهلاك الذاكرة في تجاربنا. الرمز متاح على https://github.com/locuslab/deq .

نماذج التوازن العميقة | أحدث الأوراق البحثية | HyperAI