منذ شهر واحد

بادئة: البحث عن متحولات فعالة للنمذجة اللغوية

David R. So; Wojciech Mańke; Hanxiao Liu; Zihang Dai; Noam Shazeer; Quoc V. Le

الملخص

النماذج الكبيرة لـ Transformer كانت محورًا للتقدم الأخير في معالجة اللغة الطبيعية. ومع ذلك، تزايدت تكاليف التدريب والاستدلال لهذه النماذج بسرعة وأصبحت باهظة الثمن بشكل مفرط. هنا نهدف إلى تقليل تكاليف Transformers من خلال البحث عن متغير أكثر كفاءة. بالمقارنة مع الطرق السابقة، يتم إجراء بحثنا على مستوى أدنى، عبر الوحدات الأولية التي تعريف برنامج Transformer TensorFlow. لقد حددنا بنية تم تسميتها Primer، والتي لديها تكلفة تدريب أصغر من Transformer الأصلي وغيرها من المتغيرات لنموذج اللغة الذاتي-التتابعي (auto-regressive). يمكن أن يُعزى معظم التحسينات التي حققتها Primer إلى تعديلين بسيطين: مضاعفة تنشيطات ReLU وإضافة طبقة انتقال عمقي (depthwise convolution) بعد كل عملية قَذْف ذاتي (Q, K, و V projection) في الانتباه الذاتي (self-attention).تظهر التجارب أن زيادة Primer على Transformer تتزايد مع زيادة الحوسبة وتتبع قانون القوة فيما يتعلق بالجودة عند أحجام النماذج المثلى. كما نؤكد عمليًا أنه يمكن دمج Primer في مختلف البيئات البرمجية لتسريع التدريب بشكل كبير دون ضبط إضافي. على سبيل المثال، عند حجم المعلمات البالغ 500 مليون، يحسن Primer البنية الأصلية لـ T5 في نمذجة اللغة الذاتية-التتابعية C4، مما يقلل من تكلفة التدريب بأربع مرات. بالإضافة إلى ذلك، فإن انخفاض تكلفة التدريب يعني أن Primer يحتاج إلى حوسبة أقل بكثير للوصول إلى أداء واحد محدد. على سبيل المثال، في تركيبة معلمات بحجم 1.9 مليار مشابهة لـ GPT-3 XL، يستخدم Primer ثلث الحوسبة اللازمة للتدريب لتحقيق نفس أداء الأداء الواحد الذي يحققه Transformer. نقوم بتوفير مصدر رمزي لنماذجنا ومجموعة من المقارنات في T5 لمساعدتنا في إعادة الإنتاج.