FLAVR: تمثيلات الفيديو المستقلة عن التدفق للإنتربوليشن السريع للصور الثابتة

معظم طرق تداخل الإطارات الفيديوية تقوم بحساب التدفق البصري ثنائي الاتجاه بين الإطارات المجاورة لفيديو، يليه خوارزمية تشويه مناسبة لإنشاء الإطارات الخرج. ومع ذلك، فإن الأساليب التي تعتمد على التدفق البصري غالبًا ما تفشل في نمذجة الاختفاءات والحركات غير الخطية المعقدة مباشرة من الفيديو وتroduce نقاط اختناق إضافية غير مناسبة للنشر الواسع. نعالج هذه القيود باستخدام FLAVR (أرشفة مرنة وكفوءة)، وهي هندسة مرنة وكفوءة تستخدم التفافات مكانيّة زمنيّة ثلاثية الأبعاد لتمكين التعلم والاستدلال من النهاية إلى النهاية لتداخل الإطارات الفيديوية. يتمكن أسلوبنا من تعلم استنتاج الحركات غير الخطية، الاختفاءات المعقدة والتجريدات الزمنية بكفاءة، مما يؤدي إلى تحسين الأداء في تداخل الفيديو دون الحاجة إلى مدخلات إضافية على شكل تدفق بصري أو خرائط عمق. بفضل بساطته، يمكن لـ FLAVR أن يوفر سرعة استدلال أسرع بمعدل ثلاثة أضعاف مقارنة بالطريقة الأكثر دقة حاليًا في تداخل الإطارات المتعددة دون فقدان دقة التداخل. بالإضافة إلى ذلك، قمنا بتقييم FLAVR في مجموعة واسعة من البيئات الصعبة وأظهرنا باستمرار نتائج نوعية وكمية أفضل مقارنة بالأساليب السابقة في العديد من المقاييس الشائعة مثل Vimeo-90K، UCF101، DAVIS، Adobe و GoPro. أخيرًا، نثبت أن FLAVR لتداخل الإطارات الفيديوية يمكن أن يكون مهمة سابقة ذات رقابة ذاتية مفيدة لتحديد الأفعال، تقدير التدفق البصري وتكبير الحركة.