HyperAIHyperAI

Command Palette

Search for a command to run...

نماذج التوازن العميقة

Shaojie Bai; J. Zico Kolter; Vladlen Koltun

الملخص

نقدم نهجًا جديدًا لنمذجة البيانات التسلسلية: نموذج التوازن العميق (DEQ). مستوحى من ملاحظة أن الطبقات المخفية لعديد من النماذج العميقة الحالية للبيانات التسلسلية تتقارب نحو نقطة ثابتة، نقترح نهج DEQ الذي يجد هذه النقاط التوازنية مباشرة عبر البحث عن الجذر. مثل هذا الأسلوب يعادل تشغيل شبكة تغذية قدامية ذات عمق لا نهائي (مرتبطة الوزن)، ولكنه يتميز بميزة أنه يمكننا إجراء الانتشار العكسي التحليلي عبر النقطة التوازنية باستخدام الاشتقاق الضمني. باستخدام هذا النهج، تتطلب التدريب والتوقع في هذه الشبكات ذاكرة ثابتة فقط، بغض النظر عن العمق الفعلي للشبكة. نوضح كيف يمكن تطبيق DEQs على نوعين رائدين من النماذج العميقة للتسلسلات: متحولات الانتباه الذاتي وشبكات trellis. في مهام النمذجة اللغوية الكبيرة الحجم، مثل معيار WikiText-103، نظهر أن DEQs 1) غالبًا ما تحسن الأداء فوق هذه النماذج الرائدة (لأعداد معلمات مشابهة)؛ 2) لديها متطلبات حسابية مشابهة للنماذج الحالية؛ و 3) تقلل بشكل كبير من استهلاك الذاكرة (غالبًا ما تكون نقطة الانغلاق في تدريب النماذج التسلسلية الكبيرة)، مما يدل على خفض بنسبة تصل إلى 88% في استهلاك الذاكرة في تجاربنا. الرمز متاح على https://github.com/locuslab/deq .


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نماذج التوازن العميقة | مستندات | HyperAI