طرق عشوائية موفرة للذاكرة لـ Transformers المستندة إلى الذاكرة

تتطلب تدريب النماذج المتранسформر القائمة على الذاكرة (Memory-based transformers) كميات كبيرة من الذاكرة وقد تكون غير فعالة للغاية. نقترح آلية تدريب ثنائية المرحلة وتقنية تنظيم جديدة لتحسين كفاءة التدريب لهذه النماذج، والتي غالباً ما تُستخدم في مشاكل السياق الطويل المدى. بالنسبة لتجاربنا، اعتبرنا نموذج transformer-XL كنموذج مرجعي، وهو أحد نماذج المترانسفورمر القائمة على الذاكرة. أظهرنا أن نموذجنا الناتج، Skip Cross-head TransformerXL، يتفوق على النموذج المرجعي في مهمة نمذجة اللغة على مستوى الحروف مع وجود عدد مماثل من المعلمات، ويتفوق عليه أيضاً في مهمة نمذجة اللغة على مستوى الكلمات مع حوالي 20% أقل من المعلمات. لا تتطلب طرقنا المقترحة أي ذاكرة إضافية. كما أظهرنا فعالية تقنية التنظيم المقترحة لدينا على BERT، حيث أظهرت أداءً مشابهاً مع انخفاض بنسبة حوالي 30% في الانحراف المعياري للنتائج في العديد من مهام GLUE.