نموذج تلقائي متداخل صامت لتنبؤ الفيديو

تم التعامل مع توقع الإطارات المستقبلية من خلال طريقتين رئيسيتين: الطريقة ذات التكرار التلقائي (autoregressive) والطريقة غير ذات التكرار التلقائي (non-autoregressive). تعتمد الطرق ذات التكرار التلقائي على افتراض ماركوف، ويمكنها تحقيق دقة عالية في المراحل الأولى من التوقع عندما لا تكون الأخطاء قد تراكمت بعد. ومع ذلك، تميل أداءها إلى الانخفاض مع زيادة عدد خطوات الزمن. في المقابل، يمكن للطرق غير ذات التكرار التلقائي تحقيق أداء نسبيًا عالٍ، لكنها تفتقر إلى الارتباط بين التوقعات الخاصة بكل خطوة زمنية. في هذه الورقة، نقترح نموذجًا صامتًا مُتَعَدِّد الطبقات ذات تكرار تلقائي لتوقع الفيديو (IAM4VP)، وهو نموذج توقع فيديو صامت يطبّق طريقة متعددة الطبقات ذات تكرار تلقائي. مثل الطرق غير ذات التكرار التلقائي، تستخدم الطرق ذات التكرار التلقائي المتعددة الطبقات نفس الإطار المُلاحظ لتقدير جميع الإطارات المستقبلية. ومع ذلك، تستخدم توقعاتها الخاصة كمدخلات، تمامًا كما تفعل الطرق ذات التكرار التلقائي. ومع زيادة عدد خطوات الزمن، تُرصَّن التوقعات تسلسليًا في الطابور. ولتقييم فعالية IAM4VP، أجرينا تجارب على ثلاث مجموعات معيارية شائعة لتنبؤ الإطارات المستقبلية، بالإضافة إلى مجموعات معيارية لتنبؤ الطقس والمناخ. وأظهرت النتائج أن النموذج المقترح يحقق أداءً من الدرجة الأولى (state-of-the-art).