Command Palette
Search for a command to run...
التوافق العالمي مع الانتباه المتداخل لتقدير التدفق البصري
التوافق العالمي مع الانتباه المتداخل لتقدير التدفق البصري
Shiyu Zhao Long Zhao Zhixing Zhang Enyu Zhou Dimitris Metaxas
الملخص
تقدير التدفق البصري هو مهمة أساسية في رؤية الحاسوب. تحقق الطرق الحديثة القائمة على الانحدار المباشر باستخدام الشبكات العصبية العميقة تحسينًا ملحوظًا في الأداء. ومع ذلك، فإنها لا تُمكّن من التقاط العلاقات الحركية طويلة المدى بشكل صريح، وبالتالي لا تستطيع التعامل مع الحركات الكبيرة بشكل فعّال. في هذا البحث، مستوحى من الطرق التقليدية للاستيفاء-التحسين التي تُدخل عملية الاستيفاء لمعالجة الانزياحات الكبيرة قبل التحسينات القائمة على الطاقة، نُدخل خطوة بسيطة ولكن فعّالة للاستيفاء العالمي قبل الانحدار المباشر، ونطوّر إطارًا تعليميًا يعتمد على الاستيفاء والتحسين، يُسمّى GMFlowNet. في GMFlowNet، يتم حساب الاستيفاء العالمي بشكل فعّال من خلال تطبيق عملية argmax على أحجام التكلفة ذات الأبعاد الأربعة (4D cost volumes). بالإضافة إلى ذلك، ولتحسين جودة الاستيفاء، نقترح انتباهًا مبنيًا على اللوحات (patch-based overlapping attention) لاستخراج ميزات سياقية واسعة. تُظهر التجارب الواسعة أن GMFlowNet يتفوّق على RAFT، وهو أبرز طريقة قائمة على التحسين فقط، بفارق كبير، ويحقق أداءً متفوّقًا على المعايير القياسية. وبفضل خطوة الاستيفاء والانتباه المتداخل، تُحقّق GMFlowNet تحسينات كبيرة في التنبؤات الخاصة بالمناطق الخالية من النسيج والحركات الكبيرة. تم إتاحة الكود الخاص بنا للجمهور عبر الرابط التالي: https://github.com/xiaofeng94/GMFlowNet