استكشاف حدود التعلم النقل باستخدام محول نص إلى نص موحد

التعلم النقل، حيث يتم تدريب النموذج أولاً على مهمة غنية بالبيانات قبل تعديله على المهمة اللاحقة، قد ظهر كتقنية قوية في معالجة اللغة الطبيعية (NLP). وقد أدت فعالية التعلم النقل إلى ظهور مجموعة متنوعة من الأساليب والمنهجيات والممارسات. في هذا البحث، نستكشف مجال تقنيات التعلم النقل لمعالجة اللغة الطبيعية من خلال تقديم إطار عمل موحد يحول جميع المشكلات اللغوية القائمة على النص إلى تنسيق نص-إلى-نص. تقارن دراستنا النظامية أهداف التدريب الأولي، والهياكل، ومجموعات البيانات غير المصنفة، وتقنيات النقل والعوامل الأخرى في العشرات من مهام فهم اللغة. بدمج الرؤى المستفادة من استكشافنا مع الحجم ومع مجموعتنا الجديدة "المجموعة الضخمة النظيفة المحصلة" (Colossal Clean Crawled Corpus)، حققنا أفضل النتائج في العديد من المقاييس التي تغطي الإيجاز، وإجابات الأسئلة، تصنيف النصوص وغيرها. لتسهيل العمل المستقبلي حول التعلم النقل لمعالجة اللغة الطبيعية، نقوم بإصدار مجموعة البيانات الخاصة بنا والنموذج المدرب الأولي والكود.