هل تحتاج إلى نموذج لغوي صغير متخصص؟ خطط مبكرًا!

النماذج اللغوية الكبيرة أدوات متعددة الاستخدامات، لكنها غير مناسبة للميزانيات الصغيرة للاستنتاج. أما النماذج الصغيرة، فهي تتميز بفعالية أعلى في الاستنتاج، لكن قدرتها المحدودة تعني أن أداؤها يكون جيدًا فقط إذا تم تقييد نطاقها إلى مجال متخصص. يتناول هذا البحث كيفية الحصول على نماذج لغوية صغيرة متخصصة جيدة باستخدام مجموعة تدريب عامة كبيرة وكمية محدودة من البيانات المتخصصة. ننظر إلى حالتين، اعتمادًا على ما إذا كان (أ) يمكن تحمل تدريب نموذج لكل مهمة متخصصة، أو (ب) يُراد تكييف نموذج مُدرّب مسبقًا واحدًا بسعر منخفض لكل مهمة. في الحالة الأولى، نقترح حلًا فعّالًا يستند إلى العينة المهمة: نُعاد عينة مجموعة التدريب المسبق لمحاكاة بيانات التخصص، ثم ندرّب نموذجًا صغيرًا عليها. وفي الحالة الثانية، نقترح بنية جديدة تُسمى الشبكات المُشَرَّطة (PN). تُعد PN شبكة كبيرة يمكن فيها تقليل معلماتها بشكل خطي إلى شبكة صغيرة لتخصصها. ونُظهر تأثيرنا التجريبي في كلا الحالتين عبر مجالات متعددة وأحجام مجموعات تدريب وميزانيات تدريب مختلفة.