عندما يلتقي الانتباه بالتكرار السريع: تدريب نماذج اللغة بتقليل الحوسبة

أصبح تدريب النماذج اللغوية الكبيرة أكثر صعوبة مع تزايد وقت الحوسبة والتكلفة. في هذا العمل، نقدّم معمارية SRU++، وهي معمارية عالية الكفاءة تدمج بين التكرار السريع والانتباه لنموذج التسلسلات. تُظهر SRU++ قدرة نمذجة قوية وكفاءة تدريب متميزة. على مهام نمذجة اللغة القياسية مثل مجموعات البيانات Enwik8 وWiki-103 وBillion Word، تحقق نموذجنا نتائج أفضل من حيث عدد البتات لكل حرف (bits-per-character) ودرجة اللبّ (perplexity)، مع استهلاك تكلفة تدريب أقل بثلاث إلى عشر مرات مقارنةً بالنماذج المُتحكّمة من نوع Transformer. على سبيل المثال، حقق نموذجنا نتيجةً متقدمة على مستوى العالم في مجموعة بيانات Enwik8 باستخدام 1.6 يوم فقط من التدريب على جهاز مكوّن من 8 وحدات معالجة رسومية (GPU). كما نُظهر بشكل إضافي أن SRU++ تحتاج إلى انتباه ضئيل لتحقيق أداءً قريبًا من الأفضل في فئته. تشير نتائجنا إلى أن الاستفادة المشتركة من التكرار السريع مع انتباه محدود تمثل اتجاهًا واعدًا لتسريع عملية التدريب والاستدلال النموذجي.