HyperAIHyperAI

Command Palette

Search for a command to run...

AlexaTM 20B: التعلّم القليل باستخدام نموذج متعدد اللغات من النوع Seq2Seq بحجم كبير

الملخص

في هذه الدراسة، نُظهر أن نماذج التسلسل إلى التسلسل (seq2seq) متعددة اللغات ذات الحجم الكبير، التي تم تدريبها مسبقًا على مزيج من مهام إزالة الضوضاء والنمذجة اللغوية السببية (CLM)، تكون أكثر كفاءة في التعلم من عدد قليل من الأمثلة (few-shot learning) مقارنةً بنماذج المُفكِّك فقط (decoder-only) على مجموعة متنوعة من المهام. وبشكل خاص، قمنا بتدريب نموذج متعدد اللغات يحتوي على 20 مليار معلمة يُسمى نموذج معلم آليكسا (Alexa Teacher Model)، أو (AlexaTM 20B)، ونُظهر أن هذا النموذج يحقق أداءً متفوقًا على مستوى الحد الأقصى (SOTA) في مهام التلخيص باستخدام مثال واحد (1-shot)، ويتفوق على نموذج PaLM الأكبر حجمًا والذي يحتوي على 540 مليار معلمة. كما يحقق AlexaTM 20B أداءً SOTA في الترجمة الآلية باستخدام مثال واحد، خاصةً بالنسبة للغات ذات الموارد المحدودة، عبر معظم أزواج اللغات المدعومة من قبل النموذج (العربية، الإنجليزية، الفرنسية، الألمانية، الهندية، الإيطالية، اليابانية، الماراثية، البرتغالية، الإسبانية، التاميلية، والتيلوغية) على مجموعة بيانات Flores-101. كما نُظهر في البيئة ذات الصفر أمثلة (zero-shot)، أن AlexaTM 20B يتفوق على نموذج GPT3 (175B) في مجموعتي بيانات SuperGLUE وSQuADv2، ويُقدّم أداءً متفوقًا على مستوى الحد الأقصى في مهام متعددة اللغات مثل XNLI وXCOPA وPaws-X وXWinograd. بشكل عام، تُقدّم نتائجنا حالة مقنعة لاستخدام نماذج seq2seq كبديل قوي لنموذج المُفكِّك فقط في تدريب النماذج اللغوية الضخمة (LLM).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp