شبكة تدفق مكعبات متعددة المقاييس ديناميكية للتنبؤ بالفيديو

تم تعزيز أداء توقع الفيديو بشكل كبير بفضل الشبكات العصبية العميقة المتقدمة. ومع ذلك، تعاني معظم الطرق الحالية من حجم النموذج الكبير وتحتاج إلى مدخلات إضافية، مثل خرائط المعنى أو الخرائط العميقة، لتحقيق أداء متميز. وباعتبار الكفاءة موضع الاهتمام، نقترح في هذه الورقة شبكة تدفق مكعبات متعددة المقاييس ديناميكية (DMVFN) لتحقيق أداء أفضل في توقع الفيديو بتكلفة حوسبة أقل، باستخدام فقط صور RGB، متفوقة على الطرق السابقة. وتركز DMVFN على وحدة توجيه قابلة للتمييز، والتي يمكنها اكتشاف مقاييس الحركة في الإطارات الفيديو بشكل فعّال. وبعد التدريب، تقوم DMVFN باختيار شبكات فرعية متكيفة لكل مدخل عند مرحلة الاستنتاج. وتشير التجارب على عدة معايير إلى أن DMVFN أسرع بمرتبة من Deep Voxel Flow، وتتفوق على أحدث الطرق القائمة على التكرار (OPT) من حيث جودة الصور المولدة. يمكن الوصول إلى الكود والعرض التوضيحي عبر الرابط: https://huxiaotaostasy.github.io/DMVFN/.