HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer-XL: نماذج اللغة ذات الانتباه خارج سياق طول ثابت

Rong Yang Qian Yu Ruoming Pang Zihang Dai Yonghui Wu Quoc V. Le

الملخص

يمتلك النماذج التحويلية (Transformers) إمكانية تعلم الارتباطات طويلة المدى، ولكنها محدودة بسياق ذو طول ثابت في إطار نمذجة اللغة. نقترح هندسة عصبية جديدة تُعرف باسم Transformer-XL تمكن من تعلم الارتباطات التي تتجاوز الطول الثابت دون تعكير الوتيرة الزمنية. تتكون هذه الهندسة من آلية تكرار على مستوى القطعة ونظام ترميز موضع جديد. لا يقتصر أسلوبنا على تمكين التقاط الارتباطات طويلة المدى فحسب، بل يحل أيضًا مشكلة تجزئة السياق. نتيجة لذلك، يتمكن Transformer-XL من تعلم ارتباطات أطول بنسبة 80% من شبكات المعالجة العصبية المتكررة (RNNs) وأطول بنسبة 450% من النماذج التحويلية التقليدية، ويحقق أداءً أفضل في كلٍ من التسلسلات القصيرة والطويلة، وهو أسرع بمقدار يصل إلى 1,800 مرة من النماذج التحويلية التقليدية أثناء التقييم. بشكل لافت للنظر، نحن نحسن النتائج الرائدة في مجال البِيتس لكل حرف (bpc)/الغموض (perplexity) إلى 0.99 على enwiki8، و1.08 على text8، و18.3 على WikiText-103، و21.8 على One Billion Word، و54.5 على Penn Treebank (بدون إعادة التعديل). عند التدريب فقط على WikiText-103، يتمكن Transformer-XL من إنشاء مقالات نصية جديدة ومتماسكة مع آلاف الرموز. رمز البرمجيات الخاصة بنا والنماذج المدربة مسبقًا والمعلمات متاحة في كلٍ من Tensorflow وPyTorch.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp