HyperAIHyperAI
منذ 9 أيام

N-Grammer: تعزيز المحولات بمقاييس n-gram المخفية

Aurko Roy, Rohan Anil, Guangda Lai, Benjamin Lee, Jeffrey Zhao, Shuyuan Zhang, Shibo Wang, Ye Zhang, Shen Wu, Rigel Swavely, Phuong Dao, Christopher Fifty, Zhifeng Chen, Yonghui Wu
N-Grammer: تعزيز المحولات بمقاييس n-gram المخفية
الملخص

أصبحت نماذج المُحَوِّل (Transformer) في الآونة الأخيرة واحدة من النماذج الأساسية في معالجة اللغة الطبيعية، وبما ينجم عن ذلك، تزايد الاهتمام والاستثمار الكبير في توسيع حجم هذه النماذج. ومع ذلك، فإن تكاليف التدريب والاستنتاج الخاصة بنماذج اللغة الكبيرة من نوع المُحَوِّل تكون مرتفعة جدًا، مما يستدعي مزيدًا من البحث في تحديد نماذج أكثر كفاءة. في هذا العمل، نقترح تعديلًا بسيطًا ولكن فعّالًا على بنية المُحَوِّل، مستلهمين من الأدبيات المتعلقة بنمذجة اللغة الإحصائية، من خلال إضافة n-gram إلى النموذج تم بناؤه من تمثيل خفي منفصل للسلسلة النصية. قمنا بتقييم نموذجنا، المُسمى N-Grammer، على مهمة نمذجة اللغة باستخدام مجموعة بيانات C4، وكذلك على تصنيف النصوص باستخدام مجموعة بيانات SuperGLUE، ووجدنا أنه يتفوق على عدة نماذج قوية مثل المُحَوِّل (Transformer) وPrimer. ونتيجة لذلك، نُشر النموذج مفتوح المصدر لغرض إعادة الإنتاج، باستخدام إطار Jax.