HyperAIHyperAI

Command Palette

Search for a command to run...

عندما يلتقي الانتباه بالتكرار السريع: تدريب نماذج اللغة بتقليل الحوسبة

Tao Lei

الملخص

أصبح تدريب النماذج اللغوية الكبيرة أكثر صعوبة مع تزايد وقت الحوسبة والتكلفة. في هذا العمل، نقدّم معمارية SRU++، وهي معمارية عالية الكفاءة تدمج بين التكرار السريع والانتباه لنموذج التسلسلات. تُظهر SRU++ قدرة نمذجة قوية وكفاءة تدريب متميزة. على مهام نمذجة اللغة القياسية مثل مجموعات البيانات Enwik8 وWiki-103 وBillion Word، تحقق نموذجنا نتائج أفضل من حيث عدد البتات لكل حرف (bits-per-character) ودرجة اللبّ (perplexity)، مع استهلاك تكلفة تدريب أقل بثلاث إلى عشر مرات مقارنةً بالنماذج المُتحكّمة من نوع Transformer. على سبيل المثال، حقق نموذجنا نتيجةً متقدمة على مستوى العالم في مجموعة بيانات Enwik8 باستخدام 1.6 يوم فقط من التدريب على جهاز مكوّن من 8 وحدات معالجة رسومية (GPU). كما نُظهر بشكل إضافي أن SRU++ تحتاج إلى انتباه ضئيل لتحقيق أداءً قريبًا من الأفضل في فئته. تشير نتائجنا إلى أن الاستفادة المشتركة من التكرار السريع مع انتباه محدود تمثل اتجاهًا واعدًا لتسريع عملية التدريب والاستدلال النموذجي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp