HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب المُعدِّل المُوجَّه بالوسوم على LLaMA

Zongxi Li Xianming Li Yuzhang Liu Haoran Xie Jing Li Fu-lee Wang Qing Li Xiaoqin Zhong

الملخص

لقد لاقت النجاحات الأخيرة في نماذج اللغة الكبيرة (LLMs) اهتمامًا كبيرًا في الأوساط الأكاديمية والصناعية على حد سواء. وتم بذل جهود كبيرة لتحسين قدرات النماذج المفتوحة المصدر على التعميم في المهام ذات الصفر أو عدد قليل من الأمثلة من خلال التدريب الدقيق (finetuning). في الوقت الحالي، يُعد النهج السائد هو التدريب الموجه بالتعليمات (instruction-tuning)، والذي يُدرّب النماذج لإنجاز مهام واقعية من خلال إنتاج ردود موجهة بتعليمات بلغة طبيعية. ومن المهم ملاحظة أن هذا النهج قد يُظهر أداءً ضعيفًا في المهام المتعلقة بالتسلسل والتصنيف على مستوى الرموز (token classification). على عكس مهام إنشاء النصوص، فإن مهام التصنيف تتميز بفضاء محدود للعلامات، حيث يُقدّر التنبؤ الدقيق بالعلامة أكثر من إنتاج ردود متنوعة وطبيعيّة من حيث الطريقة البشرية. وقد كشفت الأبحاث السابقة أن النماذج المدربة بالتعليمات لا يمكنها التفوق على نموذج BERT، ما دفعنا إلى استكشاف إمكانية الاستفادة من التمثيلات الخفية (latent representations) التي تُنتِجها نماذج LLMs في التنبؤ بالعلامات ضمن إطار تدريب مراقب. في هذا البحث، نقدّم تكييفًا مدعومًا بالعلامات (label-supervised adaptation) للنماذج الكبيرة للغة، يهدف إلى تدريب النموذج بدقة باستخدام العلامات التمييزية. وقد قمنا بتقييم هذا النهج من خلال نموذج يُدعى LS-LLaMA (Label-Supervised LLaMA)، المبني على LLaMA-2-7B، وهو نموذج متوسط الحجم نسبيًا، ويمكن تدريبه بدقة على بطاقة رسوميات واحدة من نوع GeForce RTX4090. وتم استخراج التمثيلات الخفية من الطبقة الأخيرة في LLaMA، ثم تمريرها إلى فضاء العلامات لحساب خسارة التباديل العكسية (cross-entropy loss). وتم تدريب النموذج بدقة باستخدام تقنية التكييف من الرتبة المنخفضة (LoRA) لتقليل هذه الخسارة. وبشكل ملحوظ، فإن LS-LLaMA يتفوّق بشكل كبير على نماذج LLMs ذات الحجم عشر مرات أكبر، ويُظهر تحسينات مستمرة مقارنة بأساسيات قوية مثل BERT-Large وRoBERTa-Large في مهام تصنيف النصوص، دون الحاجة إلى هندسة مُحفّزات معقدة أو معرفة خارجية. علاوةً على ذلك، وبإزالة قناع السببية (causal mask) من المُفكّك (decoder)، يحقق نموذج LS-unLLaMA أداءً رائدًا على مستوى الدولة (state-of-the-art) في مهام التعرف على الكيانات المُعرفة (Named Entity Recognition - NER). تُعد هذه الدراسة مساهمة مهمة في توجيه مسار جديد لتكييف نماذج اللغة الكبيرة لعدد كبير من المهام اللاحقة (downstream tasks).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp