تَمْكِين نماذج اللغة المُدرَّبة مسبقًا باستخدام تمثيلات N-gram للتكيف مع المجالات ذات الموارد المنخفضة

تُعرف النماذج الكبيرة المُدرَّبة مسبقًا مثل BERT بأنها تُحسِّن مهام معالجة اللغة الطبيعية (NLP) المختلفة، حتى عند تدريبها على مجال عام. علاوة على ذلك، أظهرت دراسات حديثة أن توفر مجموعات بيانات كبيرة متخصصة في مجال معين يمكن أن يؤدي إلى تحسين أداء المهام داخل هذا المجال من خلال التدريب المستمر على بيانات متخصصة. ومع ذلك، يتطلب هذا النهج كميات كبيرة من البيانات المتخصصة والموارد الحسابية، التي قد لا تكون دائمًا متاحة. في هذا البحث، نهدف إلى تكييف نموذج مُدرَّب مسبقًا عامًا باستخدام كمية نسبية صغيرة من البيانات المتخصصة. ونُظهر أن تضمين معلومات متعددة المدى حول الكلمات غير المرئية والمتخصصة بشكل صريح من خلال تكييف (الكلمات القائمة على) النماذج الحرفية (n-grams) يمكن أن يُحسِّن بشكل كبير أداء النموذج المُدرَّب مسبقًا العام. بشكل خاص، نقدِّم مُعدِّلًا نمطيًا مُدركًا للمجال يستند إلى مُحَوِّل (Transformer)، يُسمَّى T-DNA، لتعلم ودمج التمثيل الدلالي لتركيبات مختلفة من الكلمات في المجال الجديد. تُظهر النتائج التجريبية فعالية T-DNA في ثمانية مهام تطبيقية منخفضة الموارد من أربعة مجالات. ونُظهر أن T-DNA قادر على تحقيق تحسينات كبيرة مقارنة بالطرق الحالية في معظم المهام، باستخدام بيانات محدودة وبتكاليف حسابية أقل. علاوة على ذلك، تُظهر التحليلات الإضافية الأهمية والفعالية لكل من الكلمات غير المرئية ومعلومات مختلف المدى. تُتاح الشفرة المصدرية لدينا على الرابط: https://github.com/shizhediao/T-DNA.