mGPT: المتعلم ذو القليل من الأمثلة يصبح متعدد اللغات

تقرير الدراسات الحديثة أن نماذج اللغة التراجعة قادرة على حل العديد من مهام معالجة اللغة الطبيعية (NLP) بنجاح عبر نماذج التعلم بدون أمثلة (zero-shot) ونماذج التعلم بأقل عدد من الأمثلة (few-shot)، مما يفتح آفاقًا جديدة لاستخدام النماذج اللغوية المدربة مسبقًا. يقدم هذا البحث نموذجين تراجعيين مشابهين لنموذج GPT بحجم 1.3 مليار و13 مليار معلمة، تم تدريبهما على 60 لغة من 25 عائلة لغوية باستخدام ويكيبيديا وقاعدة بيانات Colossal Clean Crawled Corpus. قمنا بإعادة إنتاج هندسة GPT-3 باستخدام مصادر GPT-2 والآلية الانتباهية النادرة (sparse attention mechanism)؛ وتتيح لنا أطر Deepspeed وMegatron تقسيم خطوات التدريب والاستدلال بشكل فعال. أظهرت النماذج الناتجة أداءً مكافئًا لنماذج XGLM التي تم إطلاقها مؤخرًا بواسطة فيسبوك، مع تغطية المزيد من اللغات وتعزيز إمكانات معالجة اللغة الطبيعية للغات ذات الموارد المنخفضة في دول الكومنولث المستقل (CIS) والأمم الصغيرة الروسية. نوضح الدوافع وراء اختيارات تصميم الهندسة، ونقدم شرحًا دقيقًا لخط الأنابيب الخاص بإعداد البيانات، ونقوم بتدريب خمس نسخ صغيرة من النموذج لاختيار استراتيجية التجزئة متعددة اللغات الأكثر كفاءة. نقيس حيرة النموذج (perplexity) في جميع اللغات المشمولة وتقييمه على طيف واسع من المهام متعددة اللغات، بما في ذلك التصنيف والإنشاء والتسمية المتسلسلة واستكشاف المعرفة. تم تقييم النماذج باستخدام الأساليب بدون أمثلة وبأقل عدد من الأمثلة. بالإضافة إلى ذلك، قارنا مهام التصنيف مع أفضل نموذج متعدد اللغات حاليًا وهو XGLM. تم إطلاق الكود المصدر والنموذج mGPT XL بشكل عام للجمهور.شرح بعض المصطلحات:NLP (Natural Language Processing): معالجة اللغة الطبيعيةzero-shot learning: التعلم بدون أمثلةfew-shot learning: التعلم بأقل عدد من الأمثلةGPT (Generative Pre-trained Transformer): محول الإنشاء المُدرب مسبقًاXGLM (Facebook's Cross-Lingual Generative Model): نموذج الإنشاء العابر لللغويات الذي طورته فيسبوكperplexity: حيرة النموذج (مقياس الأداء الشائع في نماذج اللغة)CIS (Commonwealth of Independent States): الكومنولث المستقلmGPT XL: نسخة كبيرة متعددة اللغات من GPT