HyperAIHyperAI
منذ 17 أيام

التدريب المستمر للنماذج اللغوية

Zixuan Ke, Yijia Shao, Haowei Lin, Tatsuya Konishi, Gyuhak Kim, Bing Liu
التدريب المستمر للنماذج اللغوية
الملخص

لقد لعبت نماذج اللغة (LMs) دورًا محوريًا في التقدم السريع لمعالجة اللغة الطبيعية. تدرس هذه الورقة التدريب المستمر لنموذج اللغة، وبشكل خاص التدريب المستمر المُخصص للمجال (أو التدريب المستمر DAP). أظهرت الأبحاث السابقة أن التدريب الإضافي لنموذج اللغة باستخدام مجموعة بيانات محددة للمجال يمكن أن يُحسّن الأداء في المهام النهائية ضمن هذا المجال. تُقدّم هذه الورقة منهجًا جديدًا للتدريب المستمر DAP لنموذج اللغة باستخدام سلسلة من مجموعات البيانات غير المُعلّمة الخاصة بالمجالات، بهدف تكييف النموذج مع هذه المجالات وتحسين أداءه في المهام النهائية. تكمن الابتكار الرئيسي في منهجنا في آلية التمويه اللينة (soft-masking) التي تتحكم مباشرة في تحديثات النموذج. كما تم اقتراح مُعَوِّض جديد (proxy) لحفظ المعرفة العامة في النموذج الأصلي. علاوةً على ذلك، يُقارن المنهج بين تمثيلات المعرفة المتعلقة بالمجالات السابقة (بما في ذلك المعرفة العامة في النموذج المُدرّب مسبقًا) ومعرفة الشبكة الكاملة الحالية لتحقيق دمج المعرفة. لا يتجاوز هذا المنهج فقط التدهور الكارثي (catastrophic forgetting)، بل يُحقّق أيضًا نقل المعرفة لتحسين الأداء في المهام النهائية. وتمت تقييم الفعالية التجريبية للمنهج المقترح، مما يُظهر فعاليته.