استكشاف التحليل الفرقي المكاني-الزمني متعدد الترددات للتنبؤ بالفيديو بدقة عالية واتساق زمني

تنبؤ الفيديو هو مهمة تنبؤ كثيفة على مستوى البكسل لاستنتاج الإطارات المستقبلية بناءً على الإطارات السابقة. لا يزال من الصعب على النماذج التنبؤية الحالية التغلب على مشكلتي فقدان التفاصيل المرئية والضبابية الحركية، مما يؤدي إلى تشويه الصورة وعدم اتساق زمني. في هذا البحث، نسلط الضوء على ضرورة استكشاف التحليل متعدد الترددات للتعامل مع المشكلتين. مستلهمين من خاصية تحليل نطاق الترددات في نظام الرؤية البشري (HVS)، نقترح شبكة تنبؤ فيديو تعتمد على التحليل الموجي متعدد المستويات لمعالجة المعلومات المكانية والزمنية بطريقة موحدة. وبشكل خاص، يُحلل التحويل الموجي المكاني المتعدد المستويات كل إطار فيديو إلى نطاقات فرعية غير متماثلة ذات ترددات متعددة، مما يسهم في ت豐富 المعلومات البنائية وحفظ التفاصيل الدقيقة. من ناحية أخرى، يُحلل التحويل الموجي الزمني المتعدد المستويات، الذي يعمل على المحور الزمني، تسلسل الإطارات إلى مجموعات نطاقات فرعية ذات ترددات مختلفة، مما يسمح باستخلاص الحركات متعددة الترددات بدقة ضمن معدل إطار ثابت. تُظهر التجارب الواسعة على مجموعات بيانات متنوعة أن نموذجنا يحقق تحسينات كبيرة في الولاء (fidelity) والاتساق الزمني مقارنة بالأساليب الرائدة في مجالها.