منذ 11 أيام

Funnel-Transformer: تصفية التكرار التسلسلي لمعالجة لغوية فعالة

Zihang Dai, Guokun Lai, Yiming Yang, Quoc V. Le

الملخص

بفضل نجاح التدريب المسبق للغة، أصبح من الضروري للغاية تطوير هياكل أكثر كفاءة وقابلة للتوسع، يمكنها استغلال البيانات غير المُسَمَّاة الوافرة بتكلفة أقل. ولتحسين الكفاءة، قمنا بدراسة التكرار المُهمل جدًا في الحفاظ على تمثيل كامل الطول على مستوى الرموز (tokens)، خاصةً في المهام التي تتطلب فقط تمثيلًا متجهيًا واحدًا للسلسلة بأكملها. وباستنادًا إلى هذا التفكير، نقترح نموذج Funnel-Transformer، الذي يقوم بتقليل تسلسل الحالات المخفية تدريجيًا إلى تسلسل أقصر، وبالتالي يقلل من تكلفة الحساب. والأهم من ذلك، من خلال إعادة استثمار عدد العمليات الحسابية (FLOPs) المُوفرة نتيجة لتقليل الطول في بناء نموذج أعمق أو أوسع، نتمكن من تحسين قدرة النموذج بشكل إضافي. بالإضافة إلى ذلك، وبما أن بعض أهداف التدريب المسبق تتطلب تنبؤات على مستوى الرموز، يمكن لنموذج Funnel-Transformer استرجاع تمثيل عميق لكل رمز من التسلسل المخفى المختصر من خلال مُفكك (decoder). من الناحية التجريبية، يتفوق نموذج Funnel-Transformer على النموذج القياسي Transformer في مجموعة واسعة من المهام التي تعتمد على التنبؤ بالسلسلة، بما في ذلك تصنيف النصوص، وفهم اللغة، وفهم القراءة، وذلك مع عدد مماثل أو أقل من العمليات الحسابية (FLOPs). يمكن الوصول إلى الكود والنقاط المُدرَّبة مسبقًا عبر الرابط التالي: https://github.com/laiguokun/Funnel-Transformer.