ST-MFNet: شبكة متعددة التدفق الزمانية المكانية للتبديل الإطارات

تُعدّ عملية استيفاء الإطارات الفيديو (VFI) موضوعًا بحثيًا نشطًا حاليًا، مع تطبيقات تمتد عبر مجالات الرؤية الحاسوبية، والإنتاج بعد التصوير، وترميز الفيديو. وتشكل عملية استيفاء الإطارات تحديًا كبيرًا، خاصة في التسلسلات التي تحتوي على حركات كبيرة أو تغطية (إغلاق) أو نسيج ديناميكي، حيث تفشل الطرق الحالية في تقديم أداء مُرضٍ من حيث الجودة البصرية. في هذا السياق، نقدم طريقة جديدة قائمة على التعلم العميق لاستيفاء الإطارات، تُسمى ST-MFNet، مبنية على معمارية متعددة التدفقات المكانية-الزمنية (Spatio-Temporal Multi-Flow). تعتمد ST-MFNet على مُحدّد تدفقات متعددة المقاييس ومتعددة التدفقات جديد لتقدير تدفقات متعددة إلى واحدة (many-to-one)، والتي تُدمج مع التدفقات البصرية التقليدية من نوع واحد إلى واحد (one-to-one) لالتقاط الحركات الكبيرة والمعقدة. ولتحسين أداء الاستيفاء بالنسبة لأنماط نسيج متنوعة، تم أيضًا استخدام شبكة عصبية متعددة الأبعاد (3D CNN) لنمذجة الديناميكيات المحتوى عبر نافذة زمنية ممتدة. علاوةً على ذلك، تم تدريب ST-MFNet ضمن إطار عمل ST-GAN، الذي تم تطويره أولًا لتركيب النسيج، بهدف تحسين جودة الاستيفاء البصري بشكل إضافي. وقد تم تقييم منهجنا بشكل شامل، مقارنةً بأربعة عشر خوارزمية حديثة متقدمة في مجال VFI، حيث أظهرت النتائج بوضوح أن ST-MFNet تتفوّق باستمرار على هذه المعايير في مجموعة متنوعة من مجموعات البيانات الممثلة، مع تحقيق مكاسب كبيرة تصل إلى 1.09 ديسيبل في معيار PSNR في الحالات التي تتضمن حركات كبيرة ونسيجًا ديناميكيًا. صفحة المشروع: https://danielism97.github.io/ST-MFNet.