HyperAIHyperAI

Command Palette

Search for a command to run...

Funnel-Transformer: تصفية التكرار التسلسلي لمعالجة لغوية فعالة

Zihang Dai Guokun Lai Yiming Yang Quoc V. Le

الملخص

بفضل نجاح التدريب المسبق للغة، أصبح من الضروري للغاية تطوير هياكل أكثر كفاءة وقابلة للتوسع، يمكنها استغلال البيانات غير المُسَمَّاة الوافرة بتكلفة أقل. ولتحسين الكفاءة، قمنا بدراسة التكرار المُهمل جدًا في الحفاظ على تمثيل كامل الطول على مستوى الرموز (tokens)، خاصةً في المهام التي تتطلب فقط تمثيلًا متجهيًا واحدًا للسلسلة بأكملها. وباستنادًا إلى هذا التفكير، نقترح نموذج Funnel-Transformer، الذي يقوم بتقليل تسلسل الحالات المخفية تدريجيًا إلى تسلسل أقصر، وبالتالي يقلل من تكلفة الحساب. والأهم من ذلك، من خلال إعادة استثمار عدد العمليات الحسابية (FLOPs) المُوفرة نتيجة لتقليل الطول في بناء نموذج أعمق أو أوسع، نتمكن من تحسين قدرة النموذج بشكل إضافي. بالإضافة إلى ذلك، وبما أن بعض أهداف التدريب المسبق تتطلب تنبؤات على مستوى الرموز، يمكن لنموذج Funnel-Transformer استرجاع تمثيل عميق لكل رمز من التسلسل المخفى المختصر من خلال مُفكك (decoder). من الناحية التجريبية، يتفوق نموذج Funnel-Transformer على النموذج القياسي Transformer في مجموعة واسعة من المهام التي تعتمد على التنبؤ بالسلسلة، بما في ذلك تصنيف النصوص، وفهم اللغة، وفهم القراءة، وذلك مع عدد مماثل أو أقل من العمليات الحسابية (FLOPs). يمكن الوصول إلى الكود والنقاط المُدرَّبة مسبقًا عبر الرابط التالي: https://github.com/laiguokun/Funnel-Transformer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp