PredRNN++: نحو حل مأزق العمق الزمني في التعلم التنبؤي المكاني-زماني

نقدم PredRNN++، وهو شبكة تكرارية محسنة للتعلم التنبؤي بالفيديو. في سعينا لتحقيق قدرة نمذجة زمانية ومكانية أكبر، يزيد نهجنا من عمق الانتقال بين الحالتين المجاورتين من خلال الاستفادة من وحدة تكرارية جديدة أطلقنا عليها اسم Causal LSTM لإعادة تنظيم ذكريات المكان والزمان في آلية متدرجة. ومع ذلك، لا يزال هناك مأزق في التعلم التنبؤي بالفيديو: تم تصميم نماذج متزايدة العمق الزمني لالتقاط التغيرات المعقدة، مما يسبب صعوبات أكثر في انتشار التدرج العكسي. لحل هذا التأثير غير المرغوب فيه، نقترح هندسة طريق التدرج (Gradient Highway)، والتي توفر طرقًا بديلة أقصر لتدفق التدرجات من الإخراجيات إلى المدخلات طويلة المدى. تعمل هذه الهندسة بشكل سلس مع Causal LSTMs، مما يمكن PredRNN++ من التقاط الارتباطات قصيرة الأمد وطويلة الأمد بطريقة متكيفة. نقيم نموذجنا على مجموعة بيانات الفيديو الصناعية والمجموعات الحقيقية، مما يظهر قدرته على تخفيف مشكلة اختفاء التدرج وإنتاج نتائج تنبؤية رائدة حتى في سيناريوهات حجب الأشياء الصعبة.