FlowNet 2.0: تطور تقدير التدفق البصري باستخدام الشبكات العميقة

أثبتت FlowNet أن تقدير التدفق البصري يمكن صياغته كمشكلة تعلم. ومع ذلك، لا يزال المستوى الرائد فيما يتعلق بجودة التدفق محددًا من قبل الطرق التقليدية. خاصة في النزوحات الصغيرة وفي البيانات الحقيقية، لا تستطيع FlowNet المنافسة مع الطرق التباينية (variational methods). في هذا البحث، نطور مفهوم التعلم من النهاية إلى النهاية لتقدير التدفق البصري ونجعله يعمل بشكل فعال للغاية. تُعزى التحسينات الكبيرة في الجودة والسرعة إلى ثلاثة إسهامات رئيسية: أولاً، نركز على بيانات التدريب ونوضح أن جدول عرض البيانات أثناء التدريب مهم للغاية. ثانياً، نطور هندسة متراكبة تتضمن تحويل (warping) الصورة الثانية باستخدام التدفق البصري الوسيط. ثالثاً، نوسع نطاق التعامل مع النزوحات الصغيرة من خلال تقديم شبكة فرعية متخصصة في الحركات الصغيرة. لا يتجاوز بطء FlowNet 2.0 الأصلي عن FlowNet الأصلية بكثير ولكنه يقلل من خطأ التقدير بنسبة تزيد عن 50٪. فهو يؤدي بنفس مستوى أفضل الطرق المعاصرة بينما يعمل بمعدلات إطار تفاعلية. بالإضافة إلى ذلك، نقدم طرزًا أسرع تسمح بحساب التدفق البصري بمعدل يصل إلى 140 إطارًا في الثانية مع دقة تعادل تلك التي حققها FlowNet الأصلي.