منذ 16 أيام

LaMini-LM: قطيع متنوع من النماذج المستخلصة من تعليمات على نطاق واسع

Minghao Wu, Abdul Waheed, Chiyu Zhang, Muhammad Abdul-Mageed, Alham Fikri Aji

الملخص

تُظهر نماذج اللغة الكبيرة (LLMs) التي تم تدريبها بتوجيهات أداءً مُتفوقًا في القدرة على التوليد. ومع ذلك، فإن هذه النماذج تستهلك موارد كبيرة. وللتخفيف من هذه المشكلة، نستكشف تبادل المعرفة من النماذج الكبيرة المُدرَّبة بتوجيهات إلى نماذج أصغر بكثير. ولتحقيق ذلك، نطوّر بعناية مجموعة كبيرة من 2.58 مليون تعليمية، مبنية على تعليمات موجودة حاليًا وتعليمات تم إنشاؤها حديثًا. وبالإضافة إلى حجمها الكبير، صممنا تعليماتنا لتغطي طيفًا واسعًا من المواضيع، مما يضمن التنوّع. وتوّثق التحليلات الواسعة لبيانات التعليمات لدينا تنوعها، ونُولِّد استجابات لهذه التعليمات باستخدام نموذج gpt-3.5-turbo. وباستخدام هذه التعليمات، نُدرّب مجموعة متنوعة من النماذج، والتي تُشار إليها مجتمعة باسم LaMini-LM، وتشمل نماذج من عائلتي encoder-decoder وdecoder-only، بمقاسات مختلفة. ونقيّم أداء نماذجنا باستخدام مقاييس آلية على 15 معيارًا مختلفًا في مجال معالجة اللغة الطبيعية (NLP)، بالإضافة إلى التقييم البشري. وتكشف النتائج أن النماذج المقترحة LaMini-LM تُقارن بالأساليب التنافسية الأخرى، مع اختلاف كبير في الحجم، حيث تكون أصغر بكثير.