تعزيز lokalität و كسر عقبة الذاكرة في نماذج Transformer للتنبؤ بالسلسلة الزمنية

تنبؤ السلاسل الزمنية هو مشكلة مهمة في العديد من المجالات، بما في ذلك توقع إنتاج الطاقة من محطات الطاقة الشمسية، استهلاك الكهرباء، وحالة الزحام المروري. في هذا البحث، نقترح التعامل مع هذه المشكلة في التنبؤ باستخدام نموذج Transformer [1]. رغم الإعجاب بأدائه في دراستنا الأولية، فقد اكتشفنا نقطتين رئيسيتين من الضعف: (1) عدم الحساسية للسياق المحلي: الضرب النقطي الذاتي للاهتمام (self-attention) في هيكل Transformer التقليدي غير حساس للسياق المحلي، مما يمكن أن يجعل النموذج عرضة للتشوهات في السلسلة الزمنية؛ (2) عنق الزجاجة في الذاكرة: تعقيد الفضاء لـ Transformer التقليدي يزداد بشكل مربع مع طول السلسلة $L$، مما يجعل модели مباشرة للسلاسل الزمنية الطويلة غير قابلة للتنفيذ. لحل هاتين المشكلتين، نقترح أولاً الاهتمام الذاتي المُعَلَّم بالتجعيد (convolutional self-attention) بإنتاج الاستعلامات والمسارات باستخدام التجعيد السببي (causal convolution)، بحيث يمكن دمج السياق المحلي بشكل أفضل في آلية الاهتمام. ثم، نقترح LogSparse Transformer بتكلفة ذاكرة فقط $O(L(\log L)^{2})$، مما يحسن دقة التنبؤ للسلاسل الزمنية ذات الدقة الدقيقة والاعتماديات طويلة الأجل تحت ميزانية ذاكرة محددة. تجاربنا على البيانات المصنعة وعلى مجموعات البيانات الحقيقية أظهرت أنه يقارن بشكل جيد مع أحدث التقنيات.注释:- "Transformer" 通常直接使用英文,因为它是一个专有名词。- "canonical" 翻译为 "تقليدي" 或 "أصلي",这里选择 "تقليدي" 更符合上下文。- "locality-agnostics" 翻译为 "عدم الحساسية للسياق المحلي",以保持专业性和清晰度。- "point-wise dot-product self-attention" 翻译为 "الضرب النقطي الذاتي للاهتمام"،这是该术语的通用翻译。- "causal convolution" 翻译为 "التجعيد السببي",这是该术语的通用翻译。- "memory bottleneck" 翻译为 "عنق الزجاجة في الذاكرة",以保持专业性。- "space complexity" 翻译为 "تعقيد الفضاء",这是该术语的通用翻译。- "sequence length $L$" 翻译为 "طول السلسلة $L$",以保持数学符号的一致性。- "fine granularity" 翻译为 "الدقة الدقيقة",这是该术语的通用翻译。- "strong long-term dependencies" 翻译为 "الاعتماديات طويلة الأجل"،这是该术语的通用翻译。- "state-of-the-art" 翻译为 "أحدث التقنيات",这是该术语的常用翻译。