HyperAIHyperAI
منذ 10 أيام

Subformer: نموذج مُقلّص المعاملات لنموذج Transformer

{Yutaka Matsuo, Edison Marrese-Taylor, Machel Reid}
Subformer: نموذج مُقلّص المعاملات لنموذج Transformer
الملخص

يمكن بالتأكيد وصف ظهور نموذج المُحَوِّل (Transformer) على أنه أحد العوامل المحركة وراء العديد من التطورات الحديثة في معالجة اللغة الطبيعية. ومع ذلك، وعلى الرغم من التحسن الكبير في الأداء الذي أظهره النموذج، كما أُظهر مؤخرًا، فإن النموذج يعاني من تجاوز كبير في عدد المعلمات، مما يجعله غير فعّال من حيث عدد المعلمات، ومرتفع التكلفة حسابيًا عند التدريب. مستوحى من النجاح الذي حققته تقنية مشاركة المعلمات في نماذج التمثيلات الكلامية العميقة المُتَقَدِّمة والسياقية، نستكشف أساليب مشاركة المعلمات في نماذج المُحَوِّل، مع تركيز خاص على النماذج المُكوَّنة من مُشِّفر (Encoder) وديكودر (Decoder) المُستخدمة في المهام التسلسلية إلى تسلسلية مثل الترجمة الآلية. قمنا بتحليل مختلف أساليب مشاركة/تقليل المعلمات، وطورنا نموذج "Subformer"، وهو نموذج مبني على المُحَوِّل وفعال من حيث عدد المعلمات، يدمج تقنية مشاركة المعلمات من نوع "الساندويتش" (Sandwich-style) المُقترحة حديثًا، مع تقنية تحليل التضمين الذاتي (SAFE). أظهرت التجارب في مجال الترجمة الآلية، والتلخيص الاستنتاجي، ونمذجة اللغة أن نموذج Subformer يمكنه التفوق على نموذج المُحَوِّل حتى عند استخدام عدد معلمات أقل بكثير. على مجموعة اختبار WMT'14 للغة الإنجليزية إلى الألمانية، أظهرنا أننا نحقق أداءً مماثلًا، وغالبًا ما نتفوق (بما يعادل 0.1 نقطة في مؤشر BLEU) على نموذج المُحَوِّل الأساسي، مع استخدام 40% أقل من المعلمات. كما حققنا أداءً مماثلًا لنموذج Transformer-big مع 40% أقل من المعلمات، وتفوّقنا عليه بـ 0.7 نقطة في مؤشر BLEU مع استخدام 12 مليون معلمة أقل. وبالمثل، تفوقنا على النموذج القياسي Transformer-XL، حيث حققنا انخفاضًا كبيرًا في معامل التباس (perplexity) بنسبة 3.6، مع استخدام 37% أقل من المعلمات.