منذ 9 أيام
الشبكات العصبية التكرارية ذات ترتيب Z للتنبؤ بالفيديو
{Philip S Yu, Wang Jianmin, Mingsheng Long, Yunbo Wang, Jianjin Zhang}
الملخص
نقدّم نموذجًا لشبكة عصبية متكررة ذات ترتيب Z (Znet) لتنبؤ الإطارات المستقبلية في الفيديو بناءً على الملاحظات التاريخية. تتمثل المساهمتان الرئيسيتان، من منظورين مختلفين: النمذجة التحديدية والنمذجة العشوائية. أولاً، نقترح بنية جديدة لشبكة عصبية متكررة لتمثيل الديناميات التحديدية، حيث يتم تحديث الحالات الخفية وفقًا لمنحنى Z-Order، مما يعزز اتساق الميزات بين الطبقات المرآتية. ثانيًا، نُقدّم نهجًا تدريبيًا معاكسًا (adversarial training) لنموذج Znet ثنائي المسار، لتمثيل التغيرات العشوائية، حيث يُجبر نموذج Znet-Predictor على تقليد سلوك نموذج Znet-Probe. يمكّن هذا الهيكل ثنائي المسار من إجراء التدريب المعاكس في فضاء الميزات بدلًا من فضاء الصور. وتحقق نماذجنا دقة تنبؤ متقدمة جدًا على مجموعتي بيانات فيديو مختلفتين.