Command Palette
Search for a command to run...
mGPT: المتعلم ذو القليل من الأمثلة يصبح متعدد اللغات
mGPT: المتعلم ذو القليل من الأمثلة يصبح متعدد اللغات
Oleh Shliazhko extsuperscript1,* Alena Fenogenova extsuperscript2 Maria Tikhonova extsuperscript2,3 Anastasia Kozlova extsuperscript2 Vladislav Mikhailov extsuperscript2,*† Tatiana Shayrina extsuperscript2,4,5,6,*
الملخص
تقرير الدراسات الحديثة أن نماذج اللغة التراجعة قادرة على حل العديد من مهام معالجة اللغة الطبيعية (NLP) بنجاح عبر نماذج التعلم بدون أمثلة (zero-shot) ونماذج التعلم بأقل عدد من الأمثلة (few-shot)، مما يفتح آفاقًا جديدة لاستخدام النماذج اللغوية المدربة مسبقًا. يقدم هذا البحث نموذجين تراجعيين مشابهين لنموذج GPT بحجم 1.3 مليار و13 مليار معلمة، تم تدريبهما على 60 لغة من 25 عائلة لغوية باستخدام ويكيبيديا وقاعدة بيانات Colossal Clean Crawled Corpus. قمنا بإعادة إنتاج هندسة GPT-3 باستخدام مصادر GPT-2 والآلية الانتباهية النادرة (sparse attention mechanism)؛ وتتيح لنا أطر Deepspeed وMegatron تقسيم خطوات التدريب والاستدلال بشكل فعال. أظهرت النماذج الناتجة أداءً مكافئًا لنماذج XGLM التي تم إطلاقها مؤخرًا بواسطة فيسبوك، مع تغطية المزيد من اللغات وتعزيز إمكانات معالجة اللغة الطبيعية للغات ذات الموارد المنخفضة في دول الكومنولث المستقل (CIS) والأمم الصغيرة الروسية. نوضح الدوافع وراء اختيارات تصميم الهندسة، ونقدم شرحًا دقيقًا لخط الأنابيب الخاص بإعداد البيانات، ونقوم بتدريب خمس نسخ صغيرة من النموذج لاختيار استراتيجية التجزئة متعددة اللغات الأكثر كفاءة. نقيس حيرة النموذج (perplexity) في جميع اللغات المشمولة وتقييمه على طيف واسع من المهام متعددة اللغات، بما في ذلك التصنيف والإنشاء والتسمية المتسلسلة واستكشاف المعرفة. تم تقييم النماذج باستخدام الأساليب بدون أمثلة وبأقل عدد من الأمثلة. بالإضافة إلى ذلك، قارنا مهام التصنيف مع أفضل نموذج متعدد اللغات حاليًا وهو XGLM. تم إطلاق الكود المصدر والنموذج mGPT XL بشكل عام للجمهور.شرح بعض المصطلحات:NLP (Natural Language Processing): معالجة اللغة الطبيعيةzero-shot learning: التعلم بدون أمثلةfew-shot learning: التعلم بأقل عدد من الأمثلةGPT (Generative Pre-trained Transformer): محول الإنشاء المُدرب مسبقًاXGLM (Facebook's Cross-Lingual Generative Model): نموذج الإنشاء العابر لللغويات الذي طورته فيسبوكperplexity: حيرة النموذج (مقياس الأداء الشائع في نماذج اللغة)CIS (Commonwealth of Independent States): الكومنولث المستقلmGPT XL: نسخة كبيرة متعددة اللغات من GPT