HyperAIHyperAI
منذ شهر واحد

Transformer-XL: نماذج اللغة ذات الانتباه خارج سياق طول ثابت

Zihang Dai; Zhilin Yang; Yiming Yang; Jaime Carbonell; Quoc V. Le; Ruslan Salakhutdinov
Transformer-XL: نماذج اللغة ذات الانتباه خارج سياق طول ثابت
الملخص

يمتلك النماذج التحويلية (Transformers) إمكانية تعلم الارتباطات طويلة المدى، ولكنها محدودة بسياق ذو طول ثابت في إطار نمذجة اللغة. نقترح هندسة عصبية جديدة تُعرف باسم Transformer-XL تمكن من تعلم الارتباطات التي تتجاوز الطول الثابت دون تعكير الوتيرة الزمنية. تتكون هذه الهندسة من آلية تكرار على مستوى القطعة ونظام ترميز موضع جديد. لا يقتصر أسلوبنا على تمكين التقاط الارتباطات طويلة المدى فحسب، بل يحل أيضًا مشكلة تجزئة السياق. نتيجة لذلك، يتمكن Transformer-XL من تعلم ارتباطات أطول بنسبة 80% من شبكات المعالجة العصبية المتكررة (RNNs) وأطول بنسبة 450% من النماذج التحويلية التقليدية، ويحقق أداءً أفضل في كلٍ من التسلسلات القصيرة والطويلة، وهو أسرع بمقدار يصل إلى 1,800 مرة من النماذج التحويلية التقليدية أثناء التقييم. بشكل لافت للنظر، نحن نحسن النتائج الرائدة في مجال البِيتس لكل حرف (bpc)/الغموض (perplexity) إلى 0.99 على enwiki8، و1.08 على text8، و18.3 على WikiText-103، و21.8 على One Billion Word، و54.5 على Penn Treebank (بدون إعادة التعديل). عند التدريب فقط على WikiText-103، يتمكن Transformer-XL من إنشاء مقالات نصية جديدة ومتماسكة مع آلاف الرموز. رمز البرمجيات الخاصة بنا والنماذج المدربة مسبقًا والمعلمات متاحة في كلٍ من Tensorflow وPyTorch.