الشبكات السريعة للتحويل التوافقي الإنشائي للتنبؤ بالفيديوهات المعوّقة

تنبؤ الفيديو هو مهمة على مستوى البكسل تُنتج الإطارات المستقبلية باستخدام الإطارات التاريخية. غالبًا ما توجد حركات مستمرة معقدة في الفيديو، مثل التداخل بين الأجسام والاختفاء السيني (الإغلاق)، مما يشكل تحديات كبيرة لهذه المهمة. سبق أن فشلت الطرق السابقة في التقاط الديناميكيات الزمنية الطويلة الأمد بشكل جيد، أو لم تتعامل بشكل مناسب مع أقنعة الاختفاء. لمعالجة هذه المشكلات، نطور شبكة فورييه السريعة ذات التحويل التام للConvolution (FFINet)، التي تضم مكونين رئيسيين: أولاً، مُعَمِّر الاختفاء (occlusion inpainter)، والذي يستخدم التحويلات التوافقية السريعة لفورييه لتوسيع مجال الاستقبال، بحيث يُملأ المجال المفقود (الذي يعاني من اختفاء) ببنية هندسية معقدة من خلال مُعَمِّر الاختفاء. ثانيًا، المترجم الفراغي-الزمني (spatiotemporal translator)، الذي يستخدم وحدة التحويل التكاملي لفورييه المتعددة (stacked Fourier transform inception module) لتعلم التطور الزمني من خلال التحويلات المجمعة (group convolutions)، والحركة الفراغية من خلال التحويلات التوافقية بالقنوات (channel-wise Fourier convolutions)، مما يسمح باستيعاب الخصائص الفراغية-الزمنية المحلية والعالمية معًا. وهذا يشجع على إنتاج إطارات مستقبلية أكثر واقعية وعالية الجودة. ولتحسين النموذج، يتم تطبيق خسارة الاسترداد (recovery loss) على الهدف، أي تقليل الخطأ التربيعي المتوسط بين الإطار الحقيقي (ground-truth) والإطار المستعاد. وقد أظهرت النتائج الكمية والكيفية على خمسة معايير معيارية، تشمل Moving MNIST وTaxiBJ وHuman3.6M وCaltech Pedestrian وKTH، تفوق النهج المقترح. يمكن الوصول إلى الكود الخاص بنا عبر GitHub.