HyperAIHyperAI
منذ 17 أيام

التوافق العالمي مع الانتباه المتداخل لتقدير التدفق البصري

Shiyu Zhao, Long Zhao, Zhixing Zhang, Enyu Zhou, Dimitris Metaxas
التوافق العالمي مع الانتباه المتداخل لتقدير التدفق البصري
الملخص

تقدير التدفق البصري هو مهمة أساسية في رؤية الحاسوب. تحقق الطرق الحديثة القائمة على الانحدار المباشر باستخدام الشبكات العصبية العميقة تحسينًا ملحوظًا في الأداء. ومع ذلك، فإنها لا تُمكّن من التقاط العلاقات الحركية طويلة المدى بشكل صريح، وبالتالي لا تستطيع التعامل مع الحركات الكبيرة بشكل فعّال. في هذا البحث، مستوحى من الطرق التقليدية للاستيفاء-التحسين التي تُدخل عملية الاستيفاء لمعالجة الانزياحات الكبيرة قبل التحسينات القائمة على الطاقة، نُدخل خطوة بسيطة ولكن فعّالة للاستيفاء العالمي قبل الانحدار المباشر، ونطوّر إطارًا تعليميًا يعتمد على الاستيفاء والتحسين، يُسمّى GMFlowNet. في GMFlowNet، يتم حساب الاستيفاء العالمي بشكل فعّال من خلال تطبيق عملية argmax على أحجام التكلفة ذات الأبعاد الأربعة (4D cost volumes). بالإضافة إلى ذلك، ولتحسين جودة الاستيفاء، نقترح انتباهًا مبنيًا على اللوحات (patch-based overlapping attention) لاستخراج ميزات سياقية واسعة. تُظهر التجارب الواسعة أن GMFlowNet يتفوّق على RAFT، وهو أبرز طريقة قائمة على التحسين فقط، بفارق كبير، ويحقق أداءً متفوّقًا على المعايير القياسية. وبفضل خطوة الاستيفاء والانتباه المتداخل، تُحقّق GMFlowNet تحسينات كبيرة في التنبؤات الخاصة بالمناطق الخالية من النسيج والحركات الكبيرة. تم إتاحة الكود الخاص بنا للجمهور عبر الرابط التالي: https://github.com/xiaofeng94/GMFlowNet