AlexaTM 20B: التعلّم القليل باستخدام نموذج متعدد اللغات من النوع Seq2Seq بحجم كبير

في هذه الدراسة، نُظهر أن نماذج التسلسل إلى التسلسل (seq2seq) متعددة اللغات ذات الحجم الكبير، التي تم تدريبها مسبقًا على مزيج من مهام إزالة الضوضاء والنمذجة اللغوية السببية (CLM)، تكون أكثر كفاءة في التعلم من عدد قليل من الأمثلة (few-shot learning) مقارنةً بنماذج المُفكِّك فقط (decoder-only) على مجموعة متنوعة من المهام. وبشكل خاص، قمنا بتدريب نموذج متعدد اللغات يحتوي على 20 مليار معلمة يُسمى نموذج معلم آليكسا (Alexa Teacher Model)، أو (AlexaTM 20B)، ونُظهر أن هذا النموذج يحقق أداءً متفوقًا على مستوى الحد الأقصى (SOTA) في مهام التلخيص باستخدام مثال واحد (1-shot)، ويتفوق على نموذج PaLM الأكبر حجمًا والذي يحتوي على 540 مليار معلمة. كما يحقق AlexaTM 20B أداءً SOTA في الترجمة الآلية باستخدام مثال واحد، خاصةً بالنسبة للغات ذات الموارد المحدودة، عبر معظم أزواج اللغات المدعومة من قبل النموذج (العربية، الإنجليزية، الفرنسية، الألمانية، الهندية، الإيطالية، اليابانية، الماراثية، البرتغالية، الإسبانية، التاميلية، والتيلوغية) على مجموعة بيانات Flores-101. كما نُظهر في البيئة ذات الصفر أمثلة (zero-shot)، أن AlexaTM 20B يتفوق على نموذج GPT3 (175B) في مجموعتي بيانات SuperGLUE وSQuADv2، ويُقدّم أداءً متفوقًا على مستوى الحد الأقصى في مهام متعددة اللغات مثل XNLI وXCOPA وPaws-X وXWinograd. بشكل عام، تُقدّم نتائجنا حالة مقنعة لاستخدام نماذج seq2seq كبديل قوي لنموذج المُفكِّك فقط في تدريب النماذج اللغوية الضخمة (LLM).