التوافق العالمي مع الانتباه المتداخل لتقدير التدفق البصري

تقدير التدفق البصري هو مهمة أساسية في رؤية الحاسوب. تحقق الطرق الحديثة القائمة على الانحدار المباشر باستخدام الشبكات العصبية العميقة تحسينًا ملحوظًا في الأداء. ومع ذلك، فإنها لا تُمكّن من التقاط العلاقات الحركية طويلة المدى بشكل صريح، وبالتالي لا تستطيع التعامل مع الحركات الكبيرة بشكل فعّال. في هذا البحث، مستوحى من الطرق التقليدية للاستيفاء-التحسين التي تُدخل عملية الاستيفاء لمعالجة الانزياحات الكبيرة قبل التحسينات القائمة على الطاقة، نُدخل خطوة بسيطة ولكن فعّالة للاستيفاء العالمي قبل الانحدار المباشر، ونطوّر إطارًا تعليميًا يعتمد على الاستيفاء والتحسين، يُسمّى GMFlowNet. في GMFlowNet، يتم حساب الاستيفاء العالمي بشكل فعّال من خلال تطبيق عملية argmax على أحجام التكلفة ذات الأبعاد الأربعة (4D cost volumes). بالإضافة إلى ذلك، ولتحسين جودة الاستيفاء، نقترح انتباهًا مبنيًا على اللوحات (patch-based overlapping attention) لاستخراج ميزات سياقية واسعة. تُظهر التجارب الواسعة أن GMFlowNet يتفوّق على RAFT، وهو أبرز طريقة قائمة على التحسين فقط، بفارق كبير، ويحقق أداءً متفوّقًا على المعايير القياسية. وبفضل خطوة الاستيفاء والانتباه المتداخل، تُحقّق GMFlowNet تحسينات كبيرة في التنبؤات الخاصة بالمناطق الخالية من النسيج والحركات الكبيرة. تم إتاحة الكود الخاص بنا للجمهور عبر الرابط التالي: https://github.com/xiaofeng94/GMFlowNet