HyperAIHyperAI
منذ 2 أشهر

شبكة CNN خفيفة للتدفق البصري - إعادة النظر في الوفاء بالبيانات والتنظيم

Tak-Wai Hui; Xiaoou Tang; Chen Change Loy
شبكة CNN خفيفة للتدفق البصري - إعادة النظر في الوفاء بالبيانات والتنظيم
الملخص

خلال أكثر من أربعة عقود، تناولت الأغلبية مشكلة تقدير التدفق البصري باستخدام الطرق المتغيرية (variational methods). ومع تقدم تعلم الآلة، حاول بعض الأعمال الحديثة معالجة هذه المشكلة باستخدام شبكات العصبونات المتشابكة (convolutional neural network - CNN) وأظهرت نتائجًا واعدة. يتطلب FlowNet2، وهو أحدث شبكات العصبونات المتشابكة، أكثر من 160 مليون معلمة لتحقيق تقدير دقيق للتدفق. يتفوق LiteFlowNet2 على FlowNet2 في مقاييس Sintel و KITTI بينما يكون أصغر بمقدار 25.3 مرة من حيث حجم النموذج وأسرع بمقدار 3.1 مرة من حيث سرعة التشغيل. يتم بناء LiteFlowNet2 على الأساس الذي وضعه الأساليب التقليدية ويشبه الأدوار المقابلة للوفاء بالبيانات والتنظيم في الطرق المتغيرية. نحن نحسب التدفق البصري في صيغة هرمية فضائية كما هو الحال في SPyNet ولكن من خلال استدلال تدفق خفيف ومبتكر متدرج. يوفر هذا الدقة العالية في تقدير التدفق من خلال تصحيح مبكر مع دمج seemless لتطابق الوصفاء (descriptor matching). يتم استخدام تنظيم التدفق لتحسين مشكلة القيم الشاذة والحدود غير الواضحة للتدفق من خلال الالتفافات المحلية القائمة على الخصائص (feature-driven local convolutions). يمتلك شبكتنا أيضًا هيكلًا فعالًا لاستخراج الخصائص الهرمية ويتبنى تشوه الخصائص بدلاً من تشوه الصور كما هو ممارس في FlowNet2 و SPyNet. مقارنة بـ LiteFlowNet، يحسن LiteFlowNet2 دقة التدفق البصري بنسبة 23.3% على Sintel Clean، و12.8% على Sintel Final، و19.6% على KITTI 2012، و18.8% على KITTI 2015، بينما يكون أسرع بمقدار 2.2 مرة. تم جعل بروتوكول شبكتنا والنموذج المدرب متاحين بشكل عام على https://github.com/twhui/LiteFlowNet2.