SwinLSTM: تحسين دقة التنبؤ الزماني المكاني باستخدام Swin Transformer وLSTM

دمج الشبكات العصبية التلافيفية (CNNs) والشبكات العصبية التكرارية (RNNs) لالتقاط الاعتماديات المكانية-الزمنية يُعد استراتيجية شائعة في المهام المتعلقة بالتوقع المكاني-الزمني. ومع ذلك، فإن خاصية الشبكات التلافيفية بتعلم المعلومات المكانية المحلية تقلل من كفاءتها في التقاط الاعتماديات المكانية-الزمنية، مما يحد من دقة التوقعات. في هذه الورقة، نقترح خلية تكرارية جديدة تُسمى SwinLSTM، التي تدمج كتل مُحول Swin مع LSTM المبسطة، حيث تم توسيع البنية الأصلية لـ ConvLSTM بتعويض الهيكل التلافيفي بآلية الانتباه الذاتي (self-attention). علاوة على ذلك، قمنا ببناء شبكة باستخدام الخلية SwinLSTM كعنصر محوري لتوقعات مكانيّة-زمنية. وبلا استخدام تقنيات خاصة، تتفوّق SwinLSTM على أحدث الأساليب المُعتمدة في مجموعات بيانات Moving MNIST وHuman3.6m وTaxiBJ وKTH. وتشير النتائج بشكل خاص إلى تحسّن ملحوظ في دقة التوقعات مقارنة بـ ConvLSTM. تُظهر النتائج التجريبية التنافسية أن تعلّم الاعتماديات المكانية العالمية يُعد ميزة أكبر للنماذج في التقاط الاعتماديات المكانية-الزمنية. ونأمل أن تُصبح SwinLSTM قاعدة معيارية قوية لدفع تطور دقة التوقعات المكانية-الزمنية. يمكن الوصول إلى الكود المصدري بشكل عام عبر الرابط التالي: https://github.com/SongTang-x/SwinLSTM.