منذ 11 أيام

Fastformer: يمكن أن يكون الانتباه الجمعي كل ما تحتاجه

Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang, Xing Xie

الملخص

النموذج التحويلي (Transformer) نموذج قوي لفهم النصوص، لكنه غير فعّال بسبب تعقيده التربيعي بالنسبة لطول التسلسل المدخل. وعلى الرغم من وجود العديد من الطرق لتسريع نموذج التحويلي، إلا أنها لا تزال إما غير فعّالة في التعامل مع التسلسلات الطويلة أو غير كافية من حيث الأداء. في هذه الورقة، نقترح نموذج Fastformer، وهو نموذج تحويلي فعّال يعتمد على الانتباه الجمعي (additive attention). في Fastformer، بدلًا من نمذجة التفاعلات الزوجية بين الرموز (tokens)، نستخدم أولاً آلية الانتباه الجمعي لنمذجة السياقات العالمية، ثم نُحوّل تمثيل كل رمز بشكل إضافي بناءً على تفاعله مع تمثيلات السياق العالمي. وبهذا، يُمكن لـ Fastformer تحقيق نمذجة سياقية فعّالة بتعقيد خطي. وقد أظهرت التجارب الواسعة على خمسة مجموعات بيانات أن Fastformer أكثر كفاءة بكثير من العديد من نماذج التحويلي الحالية، ويمكنه في الوقت نفسه تحقيق أداءً مماثل أو حتى أفضل في نمذجة النصوص الطويلة.