Super SloMo: تقدير عالي الجودة لعدة إطارات وسطى للتقدير بين الإطارات في الفيديو

بما أن لدينا إطارين متتاليين، فإن هدف تقنية تكميم الفيديو هو إنشاء إطار(أطر) وسيط لتشكيل سلاسل فيديو متماسكة فضائيًا وزمانيًا. بينما تركز معظم الطرق الحالية على تكميم الإطار الواحد، نقترح شبكة عصبية انتقالية كاملة للقيام بتكميم الفيديو متعدد الأطر بطول متغير، حيث يتم نمذجة تفسير الحركة وتقدير الاخفاء بشكل مشترك. نبدأ بحساب التدفق البصري الثنائي الاتجاه بين الصور المدخلة باستخدام بنية U-Net. ثم يتم دمج هذه التدفقات بشكل خطي في كل خطوة زمنية لتقريب التدفقات البصرية الثنائية الوسيطة. ومع ذلك، تعمل هذه التدفقات التقريبية بشكل جيد فقط في المناطق المحلية الناعمة وتنتج تشوهات حول حدود الحركة. لمعالجة هذا القصور، نستخدم U-Net آخر لتحسين التدفق التقريبي وتوقع خرائط الرؤية الناعمة. أخيرًا، يتم تحريف الصورتين المدخلتين ودمجهما بشكل خطي لإنشاء كل إطار وسيط. من خلال تطبيق خرائط الرؤية على الصور المحورة قبل الدمج، نستبعد مساهمة البيكسلات المخفية في الإطار الوسيط المتداخل لتجنب التشوهات. بما أن لا يوجد أي من معاملات الشبكة التي تم تعلمها يعتمد على الزمن، فإن طرحنا قادر على إنتاج عدد غير محدود من الأطر الوسيطة حسب الحاجة. نقوم باستخدام 1,132 مقطع فيديو بتردد 240 إطارًا في الثانية، تحتوي على 300 ألف إطار فيديو فردي، لتدريب شبكتنا. تظهر النتائج التجريبية على عدة قواعد بيانات، عند التنبؤ بعدد مختلف من الأطر المتداخلة، أن طرحنا يؤدي بشكل أفضل بكثير من الطرق الموجودة حاليًا.请注意,这里“soft visibility maps”被翻译为“خرائط الرؤية الناعمة”,这是根据上下文对术语的一种解释性翻译。如果需要更专业的术语,可以将其翻译为“خرائط الرؤية اللينة”(خريطة الرؤية اللينة)并在括号中标注原文。