HyperAIHyperAI

Command Palette

Search for a command to run...

بادئة: البحث عن متحولات فعالة للنمذجة اللغوية

David R. So Wojciech Mańke Hanxiao Liu Zihang Dai Noam Shazeer Quoc V. Le

الملخص

النماذج الكبيرة لـ Transformer كانت محورًا للتقدم الأخير في معالجة اللغة الطبيعية. ومع ذلك، تزايدت تكاليف التدريب والاستدلال لهذه النماذج بسرعة وأصبحت باهظة الثمن بشكل مفرط. هنا نهدف إلى تقليل تكاليف Transformers من خلال البحث عن متغير أكثر كفاءة. بالمقارنة مع الطرق السابقة، يتم إجراء بحثنا على مستوى أدنى، عبر الوحدات الأولية التي تعريف برنامج Transformer TensorFlow. لقد حددنا بنية تم تسميتها Primer، والتي لديها تكلفة تدريب أصغر من Transformer الأصلي وغيرها من المتغيرات لنموذج اللغة الذاتي-التتابعي (auto-regressive). يمكن أن يُعزى معظم التحسينات التي حققتها Primer إلى تعديلين بسيطين: مضاعفة تنشيطات ReLU وإضافة طبقة انتقال عمقي (depthwise convolution) بعد كل عملية قَذْف ذاتي (Q, K, و V projection) في الانتباه الذاتي (self-attention).تظهر التجارب أن زيادة Primer على Transformer تتزايد مع زيادة الحوسبة وتتبع قانون القوة فيما يتعلق بالجودة عند أحجام النماذج المثلى. كما نؤكد عمليًا أنه يمكن دمج Primer في مختلف البيئات البرمجية لتسريع التدريب بشكل كبير دون ضبط إضافي. على سبيل المثال، عند حجم المعلمات البالغ 500 مليون، يحسن Primer البنية الأصلية لـ T5 في نمذجة اللغة الذاتية-التتابعية C4، مما يقلل من تكلفة التدريب بأربع مرات. بالإضافة إلى ذلك، فإن انخفاض تكلفة التدريب يعني أن Primer يحتاج إلى حوسبة أقل بكثير للوصول إلى أداء واحد محدد. على سبيل المثال، في تركيبة معلمات بحجم 1.9 مليار مشابهة لـ GPT-3 XL، يستخدم Primer ثلث الحوسبة اللازمة للتدريب لتحقيق نفس أداء الأداء الواحد الذي يحققه Transformer. نقوم بتوفير مصدر رمزي لنماذجنا ومجموعة من المقارنات في T5 لمساعدتنا في إعادة الإنتاج.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
بادئة: البحث عن متحولات فعالة للنمذجة اللغوية | مستندات | HyperAI