HyperAIHyperAI
منذ 15 أيام

نمذجة اللغة الفعالة باستخدام all-MLP النادرة

Ping Yu, Mikel Artetxe, Myle Ott, Sam Shleifer, Hongyu Gong, Ves Stoyanov, Xian Li
نمذجة اللغة الفعالة باستخدام all-MLP النادرة
الملخص

حصلت المعمارية المبنية بالكامل على طبقات MLP على اهتمام متزايد كبديل للنماذج القائمة على الانتباه. في مجال معالجة اللغة الطبيعية (NLP)، أظهرت أعمال حديثة مثل gMLP أن النماذج المبنية بالكامل على MLP يمكن أن تواكب نماذج Transformers في نمذجة اللغة، ولكنها لا تزال تتخلف عن هذه النماذج في المهام التطبيقية التالية. في هذا العمل، نحلل القيود المتعلقة بالقدرة التعبيرية للـ MLP، ونقترح نماذج MLP نادرة التفعيل باستخدام مزيج من الخبراء (MoE) في كل من الأبعاد المميزة (feature) والأبعاد المدخلة (الرموز أو tokens). تُحسّن هذه النماذج المبنية بالكامل على MLP النادرة قدرة النموذج والقدرة التعبيرية بشكل كبير مع الحفاظ على مستوى الحساب ثابتًا. ونُعالج التحديات الحرجة المرتبطة بدمج الحساب الشرطي من خلال استراتيجيتين للترشيح. وتبين النتائج أن النموذج المُقترح من نوع MLP النادر المبني بالكامل يُحسّن من متوسط التباس نمذجة اللغة، ويحقق تحسنًا يصل إلى 2 مرة في كفاءة التدريب مقارنة بنماذج Transformers القائمة على MoE (مثل GShard وSwitch Transformer وBase Layers وHASH Layers)، وكذلك مقارنة بالنماذج الكثيفة من Transformers وMLP المبنية بالكامل. وأخيرًا، قمنا بتقييم أدائه في التعلم الصفر-السياقي (zero-shot in-context learning) على ستة مهام تطبيقية، ووجدنا أنه يتفوق على النماذج القائمة على Transformers باستخدام MoE والـ Transformers الكثيفة.

نمذجة اللغة الفعالة باستخدام all-MLP النادرة | أحدث الأوراق البحثية | HyperAI