PredRNN: شبكات عصبية متكررة للتعلم التنبؤي باستخدام LSTMs الفضائية الزمنية

يهدف التعلّم التنبؤي للسلسلة المكانية-الزمنية إلى إنتاج صور مستقبلية من خلال التعلّم من الإطارات التاريخية، حيث تمثل المظاهر المكانية والتغيرات الزمنية هيكلين جوهريين. في هذا البحث، تم نمذجة هذه الهياكل من خلال تقديم شبكة عصبية متكررة تنبؤية (PredRNN). وقد استلهمت هذه البنية من الفكرة القائلة بأن التعلّم التنبؤي المكاني-الزمني ينبغي أن يُخزن المظاهر المكانية والتغيرات الزمنية في حقل ذاكرة موحد. وبشكل محدد، لم تعد حالات الذاكرة مقيدة داخل كل وحدة LSTM على حدة، بل تم السماح لها بالتحرك بشكل متعرج في اتجاهين: رأسيًا عبر الطبقات المكدسة للشبكة العصبية المتكررة، وأفقيًا عبر جميع حالات الشبكة العصبية. وتشكل الوحدة الجديدة المعروفة بـ ST-LSTM (وحدة LSTM المكانية-الزمنية) العمود الفقري لهذه الشبكة، حيث تقوم باستخراج وتخزين التمثيلات المكانية والزمنية في آنٍ واحد. وقد حققت شبكة PredRNN أداءً تنبؤيًا متقدمًا على مستوى الحالة الحالية في ثلاث مجموعات بيانات لتنبؤ الفيديو، كما تمثل إطارًا أكثر عمومية يمكن توسيعه بسهولة لتطبيقات تنبؤية أخرى من خلال دمجه مع هياكل أخرى.