الانسيابية الزمنية للتح convolution ذات النواة الكبيرة

حتى الآن، تستخدم معظم الهياكل المتطورة لنمذجة التسلسل الانتباه لبناء نماذج توليدية للمهام القائمة على اللغة. بعض هذه النماذج تستخدم جميع الرموز المتاحة في التسلسل لتكوين توزيع انتباه، مما يؤدي إلى تعقيد زمني يبلغ $O(n^2)$. بديلًا لذلك، تستخدم هذه النماذج تحويلات عميقة (depthwise convolutions) مع أنوية مُعيّنة بـ softmax وحجمها $k$، والتي تعمل كانتباه ذاتي محدود النطاق، مما يُقلل التعقيد الزمني إلى $O(k \cdot n)$. في هذا البحث، نقدم تحويلات تايلك (TaLK) ذات كيرنل كبير واعٍ بالزمن، وهي عملية تحويلية تكيفية جديدة تتعلم توقع حجم كيرنل المجموع بدلاً من استخدام مصفوفة كيرنل ثابتة. يؤدي هذا الأسلوب إلى تعقيد زمني يبلغ $O(n)$، مما يجعل عملية ترميز التسلسل خطية بالنسبة لعدد الرموز بشكل فعّال. قمنا بتقييم الطريقة المقترحة على مجموعات بيانات كبيرة ومعتمدة في الترجمة الآلية، وتلخيص النصوص الاستنتاجية، ونمذجة اللغة، ونُظهر أن تحويلات تايلك تمثل تحسينًا فعّالًا مقارنةً بالأساليب الأخرى القائمة على الانتباه أو التحويلات.