Command Palette
Search for a command to run...
فلاونيت 2.0: تطور تقدير التدفق البصري باستخدام الشبكات العميقة
فلاونيت 2.0: تطور تقدير التدفق البصري باستخدام الشبكات العميقة
الملخص
أظهرت نموذج فلوينت (FlowNet) إمكانية صياغة مسألة تقدير التدفق البصري كمشكلة تعلّم آلي. ومع ذلك، ما زال الجودة العالية للتدفق البصري تُحدَّد إلى حد كبير من خلال الأساليب التقليدية. وبخاصةً في حالات الانزياحات الصغيرة والبيانات الواقعية، لا يمكن لنموذج فلوينت التنافس مع الطرق التباينية (Variational Methods). في هذه الورقة، نطوّر مفهوم التعلّم من النهاية إلى النهاية (end-to-end learning) للتدفق البصري، ونُظهر كيف يمكن تحسين أدائه بشكل كبير. تُعزى التحسينات الكبيرة في الجودة والسرعة إلى ثلاث مساهمات رئيسية: أولاً، نركّز على بيانات التدريب، ونُظهر أن جدول عرض البيانات أثناء التدريب له تأثير كبير جدًا. ثانيًا، نطوّر هيكلًا متعدد الطبقات (stacked architecture) يشمل تقويس الصورة الثانية باستخدام التدفق البصري الوسيط. ثالثًا، نُعمّق التحليل في حالات الانزياحات الصغيرة من خلال إدخال شبكة فرعية متخصصة في حركات صغيرة. يُعد فلوينت 2.0 (FlowNet 2.0) أبطأ بشكل طفيف مقارنة بالنموذج الأصلي، لكنه يقلل من خطأ التقدير بنسبة تزيد عن 50٪. كما يُحقق أداءً مماثلًا للأساليب الرائدة في مجالها، مع تشغيله بسرعة إطارات تفاعلية (interactive frame rates). علاوةً على ذلك، نقدّم نسخًا أسرع من النموذج، تتيح حساب التدفق البصري بسرعة تصل إلى 140 إطارًا في الثانية، مع الحفاظ على دقة تُعادل دقة النموذج الأصلي.