المتحولات المستمرة: الانتباه خالٍ من التكرار للاستدلال عبر الإنترنت

الشُّكَّات (Transformers) في صورتها الشائعة محدودة بطبيعتها للعمل على تسلسلات كاملة من الرموز بدلاً من رمز واحد في كل مرة. نتيجة لذلك، فإن استخدامها أثناء الاستدلال عبر الإنترنت على بيانات السلسلة الزمنية ينطوي على فائض كبير بسبب التداخل في التسلسلات المتعاقبة للرموز. في هذا البحث، نقترح صيغًا جديدة لانتباه الضرب النقطي المُقَاس (Scaled Dot-Product Attention)، مما يمكّن الشُّكَّات من أداء استدلال كفء عبر الإنترنت رمزًا برمز على مدخل مستمر. من المهم الإشارة إلى أن تعديلاتنا تقتصر تمامًا على ترتيب الحسابات، بينما تكون النواتج والأوزان المُتَعَلِّمة متطابقة مع تلك الخاصة بالشُّكَّة المشفرة الأصلية (Transformer Encoder). نحن نتحقق من صحة مشفرتنا المستمرة (Continual Transformer Encoder) من خلال تجارب أجريت على مجموعات البيانات THUMOS14 وTVSeries وGTZAN مع نتائج ملحوظة: إن هندستينا المستمرة ذات الكتل الواحد والكتلين تقللان عدد العمليات العددية الطافية لكل تنبؤ بمقدار يصل إلى 63 ضعفًا و2.6 ضعفًا على التوالي، مع الحفاظ على أداء التنبؤ.