تقدير التدفق البصري باستخدام شبكة الهرم المكاني

نتعلم حساب التدفق البصري من خلال دمج صياغة الهرم المكاني التقليدية مع التعلم العميق. هذا يقدر الحركات الكبيرة بطريقة تدريجية من الخشن إلى الدقيق، وذلك عن طريق تحويل إحدى الصور في الزوج على كل مستوى من مستويات الهرم بمقدار التدفق الحالي وحساب تحديث للتدفق. بدلاً من تقليل الدالة الموضوعية القياسية على كل مستوى من مستويات الهرم، نقوم بتدريب شبكة عميقة لكل مستوى لحساب تحديث التدفق. على عكس طريقة FlowNet الحديثة، لا تحتاج الشبكات إلى التعامل مع الحركات الكبيرة؛ يتم التعامل معها بواسطة الهرم. وهذا له عدة مزايا. أولاً، شبكتنا الهرمية المكانية (SPyNet) أبسط بكثير وأصغر بنسبة 96% من FlowNet فيما يتعلق بمعالم النموذج. مما يجعلها أكثر كفاءة ومثالية للتطبيقات المدمجة. ثانياً، بما أن التدفق على كل مستوى من مستويات الهرم صغير (< 1 بكسل)، فإن الطريقة الإقحامية ملائمة عند تطبيقها على أزواج الصور المحورة. ثالثاً، على عكس FlowNet، تبدو المرشحات الإقحامية التي تم تعلمها مشابهة للمرشحات المكانية-الزمانية التقليدية، مما يوفر رؤية حول الطريقة وكيفية تحسينها. نتائجنا أكثر دقة من FlowNet في معظم المقاييس القياسية، مما يشير إلى اتجاه جديد في دمج طرق التدفق التقليدية مع التعلم العميق.