توليد سلاسل طويلة باستخدام المتحولات النادرة

الشبكات العصبية المتغيرة (Transformers) هي نماذج متسلسلة قوية، ولكنها تتطلب وقتًا وذاكرة يزدادان بشكل تربيعي مع طول التسلسل. في هذا البحث، نقدم عوامل تحليل نادر للMATRIX الانتباه التي تقلل من هذا إلى O(n√n). كما نقدم: أ) تباينًا في الهندسة والتهيئة لتدريب شبكات أعمق، ب) إعادة حساب MATRICES الانتباه لتوفير الذاكرة، وج) نواة انتباه سريعة للتدريب. نطلق على الشبكات التي تحتوي على هذه التغييرات اسم الشبكات العصبية النادرة (Sparse Transformers)، ونظهر أنها قادرة على مودلة تسلسلات يصل طولها إلى عشرات الآلاف من الخطوات الزمنية باستخدام مئات الطبقات. نستخدم نفس الهندسة لنمذجة الصور والصوت والنص من البايتات الخام، مما يحدد مستوى جديدًا للمعايير في نمذجة الكثافة لـ Enwik8 وCIFAR-10 وImageNet-64. نولد عينات غير مشروطة تظهر تماسكًا عالميًا وتعددًا كبيرًا، ونوضح أنه من الممكن في المبدأ استخدام الانتباه الذاتي لنمذجة تسلسلات يصل طولها إلى مليون خطوة زمنية أو أكثر.