Predcnn: التعلم التنبؤي مع التحويلات المتسلسلة
يظل التنبؤ بالإطارات المستقبلية في الفيديوهات مشكلة غير محلولة ولكنها صعبة التحقيق. تعاني النماذج المتكررة السائدة من استهلاك كبير للذاكرة وتكاليف حسابية عالية، في حين أن النماذج التلافيفية (التي تستخدم التحويلات التلافيفية) لا تستطيع التقاط الاعتماديات الزمنية بين إطارات الفيديو المتتالية بشكل فعّال. ولحل هذه المشكلة، نقدّم بنية بالكامل مبنية على الشبكات العصبية التلافيفية (CNN)، تُسمى PredCNN، والتي تُمثّل الاعتماديات بين الإطار التالي والإدخالات المتسلسلة للفيديو. مستوحاة من الفكرة الأساسية للنماذج المتكررة، التي تُظهر أن الحالات السابقة تتضمن عددًا أكبر من العمليات الانتقالية مقارنة بالحالات المستقبلية، قمنا بتصميم وحدة مضاعفة متسلسلة (CMU) توفر عددًا أكبر من العمليات للإطارات السابقة في الفيديو. تُمكّن هذه الوحدة الجديدة PredCNN من التنبؤ بالبيانات الفضائية الزمنية المستقبلية دون الحاجة إلى أي هيكل متكرر (سلسلة متكررة)، مما يُخفّف من صعوبة انتقال التدرجات (gradient propagation) ويسمح بتحسين كامل متوازٍ. نُظهر أن PredCNN تتفوّق على أحدث النماذج المتكررة في تنبؤ الفيديو على مجموعة بيانات Moving MNIST القياسية، وعلى مجموعتي بيانات صعبتين لتنبؤ تدفق الحشود، مع تحقيق سرعة تدريب أسرع واستهلاك أقل للذاكرة.