HyperAIHyperAI
منذ 17 أيام

التعلم لتقدير الحركات الخفية باستخدام تجميع الحركة الشاملة

Shihao Jiang, Dylan Campbell, Yao Lu, Hongdong Li, Richard Hartley
التعلم لتقدير الحركات الخفية باستخدام تجميع الحركة الشاملة
الملخص

تُعد الظلال (Occlusions) تحديًا كبيرًا لخوارزميات التدفق البصري التي تعتمد على الأدلة المحلية. نُعرّف النقطة المُظللة بأنها نقطة تُصور في الإطار الأول ولكنها لا تُرى في الإطار التالي، وهي تُعدّ توسّعًا طفيفًا للتعريف القياسي، إذ تشمل أيضًا النقاط التي تخرج عن حدود الإطار. يُعد تقدير حركة هذه النقاط أمرًا صعبًا جدًا، خاصة في السياق ثنائي الإطار. اعتمدت الدراسات السابقة على الشبكات العصبية التلافيفية (CNNs) لتعلم الظلال، دون نجاح ملحوظ، أو اشترطت استخدام عدة إطارات لاستنتاج الظلال من خلال الاستمرارية الزمنية. في هذه الورقة، نجادل بأن مشكلة الظلال يمكن حلها بشكل أفضل في الحالة الثنائية الإطار من خلال نمذجة التشابه الذاتي للصورة. نقدّم وحدة تجميع حركة عالمية، وهي منهجية تعتمد على المُحوّل (Transformer) لاستكشاف الاعتماديات طويلة المدى بين البكسلات في الصورة الأولى، ونُنفّذ تجميعًا عالميًا على ميزات الحركة المقابلة. نُظهر أن تقديرات التدفق البصري في المناطق المُظللة يمكن تحسينها بشكل ملحوظ دون التأثير على الأداء في المناطق غير المُظللة. يحقق هذا النهج نتائج جديدة وتحتاج إلى أفضل النتائج المنشورة حتى الآن على مجموعة بيانات Sintel الصعبة، حيث يُحسّن متوسط خطأ النقطة النهائية بنسبة 13.6٪ على Sintel Final و13.7٪ على Sintel Clean. في وقت التقديم، يُصنف هذا الأسلوب كأفضل أداء بين جميع الأساليب المنشورة وغير المنشورة على هذه المعايير. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/zacjiang/GMA

التعلم لتقدير الحركات الخفية باستخدام تجميع الحركة الشاملة | أحدث الأوراق البحثية | HyperAI