منذ 11 أيام

نماذج Transformer المُحررة: تُعدّ التخصيص السياقي المُخصص للمهام واعدًا بتحسين القدرة العامة دون الحاجة إلى تعديل النماذج الكبيرة المُدرّبة مسبقًا LLMs

Stepan Tytarenko, Mohammad Ruhul Amin

الملخص

يُعدّ تخصيص النماذج الكبيرة المُدرّبة مسبقًا للغة (LLMs) على مجموعات بيانات محددة استراتيجية شائعة الاستخدام في مهام التصنيف المعالجة اللغوية الطبيعية (NLP). ومع ذلك، غالبًا ما يؤدي هذا النهج إلى فقدان قدرة النموذج على التعميم. في هذه الورقة، نقدّم إطارًا يسمح بالحفاظ على قدرة التعميم ويعزز الأداء في المهمة النهائية من خلال استخدام تخصيص السياق المُخصص للمهمة. نُظهر أن التحويل الخطي لتمثيل النص من أي نموذج تحويلي (Transformer) باستخدام عامل المفهوم المخصص للمهمة يؤدي إلى تProjection على الفضاء المفاهيمي الخفي، والذي يُشار إليه في هذه الورقة باسم "تخصيص السياق". ويتم تحسين عامل المفهوم المخصص خلال مرحلة التعلم المُراقب من خلال دوال خسارة جديدة. ويُظهر الإطار المقترح أن تخصيص السياق لتمثيل النص لكل هدف مهامي يُعزز قدرة دالة التمييز، وبالتالي يحقق أداءً أفضل في مهام التصنيف. وتُظهر النتائج التجريبية على ثلاث مجموعات بيانات، هي HateXplain، ومراجعات IMDB، وتخصيصات وسائل التواصل الاجتماعي، أن النموذج المقترح يحقق دقة وأداء تعميم متفوقين. وبشكل خاص، بالنسبة لنموذج BERT غير المُخصص مسبقًا على مجموعة بيانات HateXplain، نلاحظ تحسنًا بنسبة 8% في الدقة و10% في معامل F1. أما على مجموعة بيانات IMDB، فإن النموذج المُخصص حديثًا من نوع XLNet المُتقدم يُتفوق عليه بنسبة 1% في كل من الدقة ومعامل F1. علاوة على ذلك، في اختبار تقاطع بين مجالات خارجية على مجموعات بيانات مختلفة، فإن نموذج DistilBERT المُخصص على مجموعة بيانات IMDB مع الإطار المقترح يُحسّن معامل F1 على مجموعة بيانات HateXplain بنسبة 7%. وبالنسبة لمجموعة بيانات تخصيصات وسائل التواصل الاجتماعي الخاصة بتعليقات يوتيوب، نلاحظ زيادة بنسبة 5.2% في معامل F1. وتم تنفيذ الإطار المقترح باستخدام PyTorch، وتم توفيره مفتوح المصدر على GitHub.