التعلم لتقدير الحركات الخفية باستخدام تجميع الحركة الشاملة

تُعد الظلال (Occlusions) تحديًا كبيرًا لخوارزميات التدفق البصري التي تعتمد على الأدلة المحلية. نُعرّف النقطة المُظللة بأنها نقطة تُصور في الإطار الأول ولكنها لا تُرى في الإطار التالي، وهي تُعدّ توسّعًا طفيفًا للتعريف القياسي، إذ تشمل أيضًا النقاط التي تخرج عن حدود الإطار. يُعد تقدير حركة هذه النقاط أمرًا صعبًا جدًا، خاصة في السياق ثنائي الإطار. اعتمدت الدراسات السابقة على الشبكات العصبية التلافيفية (CNNs) لتعلم الظلال، دون نجاح ملحوظ، أو اشترطت استخدام عدة إطارات لاستنتاج الظلال من خلال الاستمرارية الزمنية. في هذه الورقة، نجادل بأن مشكلة الظلال يمكن حلها بشكل أفضل في الحالة الثنائية الإطار من خلال نمذجة التشابه الذاتي للصورة. نقدّم وحدة تجميع حركة عالمية، وهي منهجية تعتمد على المُحوّل (Transformer) لاستكشاف الاعتماديات طويلة المدى بين البكسلات في الصورة الأولى، ونُنفّذ تجميعًا عالميًا على ميزات الحركة المقابلة. نُظهر أن تقديرات التدفق البصري في المناطق المُظللة يمكن تحسينها بشكل ملحوظ دون التأثير على الأداء في المناطق غير المُظللة. يحقق هذا النهج نتائج جديدة وتحتاج إلى أفضل النتائج المنشورة حتى الآن على مجموعة بيانات Sintel الصعبة، حيث يُحسّن متوسط خطأ النقطة النهائية بنسبة 13.6٪ على Sintel Final و13.7٪ على Sintel Clean. في وقت التقديم، يُصنف هذا الأسلوب كأفضل أداء بين جميع الأساليب المنشورة وغير المنشورة على هذه المعايير. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/zacjiang/GMA