FILM: التداخل الإطارات للحركة الكبيرة

نقدم خوارزمية لاستكمال الإطارات (frame interpolation) تُولِّد عدة إطارات وسيطة من صورتين مدخلتين تتميزان بحركة كبيرة بينهما. تعتمد الطرق الحديثة على استخدام شبكة متعددة لتقدير التدفق البصري أو العمق، بالإضافة إلى شبكة منفصلة مخصصة لتركيب الإطارات. وغالبًا ما تكون هذه الطرق معقدة، وتحتاج إلى بيانات حقيقية (ground-truth) نادرة للتدرجات البصرية أو العمق. في هذه الدراسة، نقدّم شبكة موحدة واحدة، تتميز بمحول ميزات متعددة المقاييس (multi-scale feature extractor) الذي يشارك الأوزان عبر جميع المقاييس، ويمكن تدريبه باستخدام الإطارات فقط. ولتركيب إطارات واضحة وجميلة بصريًا، نقترح تحسين الشبكة باستخدام خسارة مصفوفة جرام (Gram matrix loss)، والتي تقيس الفرق في الارتباط بين خرائط الميزات. تتفوّق طريقتنا على أحدث الطرق في معيار Xiph الخاص بالحركة الكبيرة. كما نحقق نتائج أفضل على مجموعات Vimeo-90K وMiddlebury وUCF101 مقارنة بالطرق التي تستخدم خسائر إدراكية (perceptual losses). وندرس تأثير مشاركة الأوزان، وتأثير التدريب على مجموعات بيانات تمتد على نطاق حركة متزايد. وأخيرًا، نُظهر فعالية نموذجنا في إنشاء مقاطع فيديو عالية الجودة وموحدة زمنيًا على مجموعة بيانات صور شبه متطابقة صعبة. يمكن الوصول إلى الشفرة النموذجية والنموذج المُدرَّب مسبقًا من خلال الرابط: https://film-net.github.io.