منذ 9 أيام

GLM: التدريب المسبق لنموذج اللغة العام باستخدام ملء الفراغ التلقائي

Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, Jie Tang

الملخص

توجد أنواع متعددة من الهياكل المُدرَّبة مسبقًا، بما في ذلك نماذج التشفير التلقائي (مثل BERT)، والنماذج التسلسلية (مثل GPT)، ونماذج المُشفِّر-المُفكِّك (مثل T5). ومع ذلك، لا تُظهر أي من إطارات التدريب المسبق أداءً متفوقًا في جميع المهام المتعلقة بالفئات الثلاث الرئيسية، وهي فهم اللغة الطبيعية (NLU)، والتجسيد غير الشرطي، والتجسيد الشرطي. نقترح نموذج لغة عام (GLM) يستند إلى ملء الفراغات التسلسلية لمعالجة هذا التحدي. يُحسّن GLM تدريب ملء الفراغات من خلال إضافة ترميزات موضعية ثنائية الأبعاد (2D positional encodings) وتمكين ترتيب عشوائي في توقع الفترات، مما يؤدي إلى تحسين الأداء مقارنة بـ BERT وT5 في مهام فهم اللغة الطبيعية. في الوقت نفسه، يمكن تدريب GLM مسبقًا لمهام مختلفة عن طريق تغيير عدد وطول الفراغات. وعلى مجموعة واسعة من المهام التي تغطي فهم اللغة الطبيعية، والتجسيد الشرطي وغير الشرطي، يتفوق GLM على BERT وT5 وGPT عند استخدام نفس حجم النموذج ونفس البيانات، ويحقق أفضل أداء باستخدام نموذج مُدرَّب مسبقًا واحدًا فقط بحجم 1.25 مرة من نموذج BERT Large، مما يُظهر قدرته العالية على التعميم على مهام تطبيقية مختلفة.