HyperAIHyperAI

Command Palette

Search for a command to run...

طرق عشوائية موفرة للذاكرة لـ Transformers المستندة إلى الذاكرة

Vishwajit Kumar Vishnu; C. Chandra Sekhar

الملخص

تتطلب تدريب النماذج المتранسформر القائمة على الذاكرة (Memory-based transformers) كميات كبيرة من الذاكرة وقد تكون غير فعالة للغاية. نقترح آلية تدريب ثنائية المرحلة وتقنية تنظيم جديدة لتحسين كفاءة التدريب لهذه النماذج، والتي غالباً ما تُستخدم في مشاكل السياق الطويل المدى. بالنسبة لتجاربنا، اعتبرنا نموذج transformer-XL كنموذج مرجعي، وهو أحد نماذج المترانسفورمر القائمة على الذاكرة. أظهرنا أن نموذجنا الناتج، Skip Cross-head TransformerXL، يتفوق على النموذج المرجعي في مهمة نمذجة اللغة على مستوى الحروف مع وجود عدد مماثل من المعلمات، ويتفوق عليه أيضاً في مهمة نمذجة اللغة على مستوى الكلمات مع حوالي 20% أقل من المعلمات. لا تتطلب طرقنا المقترحة أي ذاكرة إضافية. كما أظهرنا فعالية تقنية التنظيم المقترحة لدينا على BERT، حيث أظهرت أداءً مشابهاً مع انخفاض بنسبة حوالي 30% في الانحراف المعياري للنتائج في العديد من مهام GLUE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp