التدريب المُعدِّل المُوجَّه بالوسوم على LLaMA

لقد لاقت النجاحات الأخيرة في نماذج اللغة الكبيرة (LLMs) اهتمامًا كبيرًا في الأوساط الأكاديمية والصناعية على حد سواء. وتم بذل جهود كبيرة لتحسين قدرات النماذج المفتوحة المصدر على التعميم في المهام ذات الصفر أو عدد قليل من الأمثلة من خلال التدريب الدقيق (finetuning). في الوقت الحالي، يُعد النهج السائد هو التدريب الموجه بالتعليمات (instruction-tuning)، والذي يُدرّب النماذج لإنجاز مهام واقعية من خلال إنتاج ردود موجهة بتعليمات بلغة طبيعية. ومن المهم ملاحظة أن هذا النهج قد يُظهر أداءً ضعيفًا في المهام المتعلقة بالتسلسل والتصنيف على مستوى الرموز (token classification). على عكس مهام إنشاء النصوص، فإن مهام التصنيف تتميز بفضاء محدود للعلامات، حيث يُقدّر التنبؤ الدقيق بالعلامة أكثر من إنتاج ردود متنوعة وطبيعيّة من حيث الطريقة البشرية. وقد كشفت الأبحاث السابقة أن النماذج المدربة بالتعليمات لا يمكنها التفوق على نموذج BERT، ما دفعنا إلى استكشاف إمكانية الاستفادة من التمثيلات الخفية (latent representations) التي تُنتِجها نماذج LLMs في التنبؤ بالعلامات ضمن إطار تدريب مراقب. في هذا البحث، نقدّم تكييفًا مدعومًا بالعلامات (label-supervised adaptation) للنماذج الكبيرة للغة، يهدف إلى تدريب النموذج بدقة باستخدام العلامات التمييزية. وقد قمنا بتقييم هذا النهج من خلال نموذج يُدعى LS-LLaMA (Label-Supervised LLaMA)، المبني على LLaMA-2-7B، وهو نموذج متوسط الحجم نسبيًا، ويمكن تدريبه بدقة على بطاقة رسوميات واحدة من نوع GeForce RTX4090. وتم استخراج التمثيلات الخفية من الطبقة الأخيرة في LLaMA، ثم تمريرها إلى فضاء العلامات لحساب خسارة التباديل العكسية (cross-entropy loss). وتم تدريب النموذج بدقة باستخدام تقنية التكييف من الرتبة المنخفضة (LoRA) لتقليل هذه الخسارة. وبشكل ملحوظ، فإن LS-LLaMA يتفوّق بشكل كبير على نماذج LLMs ذات الحجم عشر مرات أكبر، ويُظهر تحسينات مستمرة مقارنة بأساسيات قوية مثل BERT-Large وRoBERTa-Large في مهام تصنيف النصوص، دون الحاجة إلى هندسة مُحفّزات معقدة أو معرفة خارجية. علاوةً على ذلك، وبإزالة قناع السببية (causal mask) من المُفكّك (decoder)، يحقق نموذج LS-unLLaMA أداءً رائدًا على مستوى الدولة (state-of-the-art) في مهام التعرف على الكيانات المُعرفة (Named Entity Recognition - NER). تُعد هذه الدراسة مساهمة مهمة في توجيه مسار جديد لتكييف نماذج اللغة الكبيرة لعدد كبير من المهام اللاحقة (downstream tasks).