منذ 9 أيام

معالجة بعض القيود الخاصة بمحولات باستخدام الذاكرة التغذوية

Angela Fan, Thibaut Lavril, Edouard Grave, Armand Joulin, Sainbayar Sukhbaatar

الملخص

تم تطبيق نماذج Transformers بنجاح على المهام التسلسلية ذات التوليد التلقائي، رغم أنها شبكات تغذية أمامية. على عكس الشبكات العصبية التكرارية، تستخدم نماذج Transformers الانتباه لالتقاط العلاقات الزمنية أثناء معالجة الرموز المدخلة بشكل متوازٍ. وعلى الرغم من أن هذه التوازي يُحدث كفاءة حسابية عالية، فإنه يُقيّد النموذج من الاستفادة الكاملة من الطبيعة التسلسلية للمدخلات. فتمثيل الطبقة المعطاة يمكنه فقط الوصول إلى تمثيلات الطبقات الأقل، بدلًا من التمثيلات ذات المستوى الأعلى التي تكون بالفعل متاحة. في هذه الدراسة، نقترح معمارية Feedback Transformer التي تُعرض جميع التمثيلات السابقة على جميع التمثيلات المستقبلية، مما يعني أن التمثيل الأدنى في اللحظة الحالية يُبنى من التمثيل المجرد عالي المستوى للماضي. ونُظهر من خلال مجموعة متنوعة من المعايير في نمذجة اللغة والترجمة الآلية والتعلم التعلمي التكيفي أن القدرة المُحسَّنة على التمثيل يمكن أن تُنتج نماذج صغيرة ورقيقة تُظهر أداءً أقوى بكثير من نماذج Transformers المماثلة.