منذ 14 أيام

تخصيص المحولات المُدرّبة مسبقًا إلى RNNs

Jungo Kasai, Hao Peng, Yizhe Zhang, Dani Yogatama, Gabriel Ilharco, Nikolaos Pappas, Yi Mao, Weizhu Chen, Noah A. Smith

الملخص

لقد تفوقت نماذج الترانسفورمر على الشبكات العصبية التكرارية (RNNs) في توليد اللغة الطبيعية. لكن هذا التفوق يترافق مع تكلفة حسابية كبيرة، نظرًا لأن تعقيد آلية الانتباه يزداد تربيعياً بالنسبة لطول التسلسل. وقد حظيت النماذج المُعدّلة الفعّالة من الترانسفورمر باهتمام متزايد في الدراسات الحديثة. ومن بين هذه النماذج، أظهر النموذج التكراري ذي التعقيد الخطي ملاءمته الجيدة لتوليد النصوص التكرارية. حيث يُقرب انتباه السوفتماكس باستخدام خرائط ميزات عشوائية أو استدلالية، لكنه قد يكون صعب التدريب وقد يؤدي إلى دقة غير مثلى. تهدف هذه الدراسة إلى تحويل نموذج ترانسفورمر مُدرّب مسبقًا إلى نسخته التكرارية الفعّالة، مع تحسين الكفاءة مع الحفاظ على الدقة. وبشكل محدد، نقترح إجراءً يُسمى "الاستبدال ثم التحسين الدقيق": في نموذج ترانسفورمر مُدرّب مسبقًا جاهزًا، نستبدل انتباه السوفتماكس ببديل تكراري ذي تعقيد خطي، ثم نقوم بتحسين النموذج دقيقًا. وباستخدام خريطة ميزات مُدرّبة، تقدم طريقةنا توازنًا مُحسّنًا بين الكفاءة والدقة مقارنة بالترانسفورمر القياسي والنماذج التكرارية الأخرى. كما نُظهر أن عملية التحسين الدقيق تتطلب تكلفة تدريب أقل مقارنة بتدريب هذه النماذج التكرارية من الصفر. وبما أن العديد من النماذج المستخدمة في المهام اللغوية الطبيعية تعتمد بشكل متزايد على نماذج الترانسفورمر المُدرّبة مسبقًا على نطاق واسع، فإن هذه الدراسة تقدّم نهجًا عمليًا لتحسين كفاءة الاستدلال دون الحاجة إلى تكرار عملية التدريب المكلفة على نطاق واسع.