الاستيفاء الإطارات الفيديو باستخدام المحول

إن تداخل الإطارات المرئية (VFI)، والذي يهدف إلى توليد إطارات وسيطة في الفيديو، حقق تقدماً ملحوظاً بفضل تطور الشبكات التلافيفية العميقة خلال السنوات الماضية. تواجه الطرق الحالية القائمة على الشبكات التلافيفية تحديات في التعامل مع الحركات الكبيرة نظراً لطبيعة التلافيف المحدودة في النطاق. ول superar هذه القيود، نقدّم إطاراً جديداً يستفيد من نموذج الـ Transformer لتمثيل العلاقات الطويلة المدى بين البكسلات عبر إطارات الفيديو. علاوةً على ذلك، يتميز شبكتنا بآلية انتباه جديدة تعتمد على النوافذ عبر المقياس، حيث تتفاعل النوافذ المختلفة عبر المقياس مع بعضها البعض. وقد أدى هذا التصميم إلى توسيع فعّال لمنطقة الاستقبال (receptive field) وجمع المعلومات متعددة المقياس. وأظهرت التجارب الكمية والكيفية الواسعة نتائج جديدة تُعدّ الأفضل على الإطلاق في مجموعة متنوعة من المعايير المعيارية.