HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم لتقدير الحركات الخفية باستخدام تجميع الحركة الشاملة

Shihao Jiang Dylan Campbell Yao Lu Hongdong Li Richard Hartley

الملخص

تُعد الظلال (Occlusions) تحديًا كبيرًا لخوارزميات التدفق البصري التي تعتمد على الأدلة المحلية. نُعرّف النقطة المُظللة بأنها نقطة تُصور في الإطار الأول ولكنها لا تُرى في الإطار التالي، وهي تُعدّ توسّعًا طفيفًا للتعريف القياسي، إذ تشمل أيضًا النقاط التي تخرج عن حدود الإطار. يُعد تقدير حركة هذه النقاط أمرًا صعبًا جدًا، خاصة في السياق ثنائي الإطار. اعتمدت الدراسات السابقة على الشبكات العصبية التلافيفية (CNNs) لتعلم الظلال، دون نجاح ملحوظ، أو اشترطت استخدام عدة إطارات لاستنتاج الظلال من خلال الاستمرارية الزمنية. في هذه الورقة، نجادل بأن مشكلة الظلال يمكن حلها بشكل أفضل في الحالة الثنائية الإطار من خلال نمذجة التشابه الذاتي للصورة. نقدّم وحدة تجميع حركة عالمية، وهي منهجية تعتمد على المُحوّل (Transformer) لاستكشاف الاعتماديات طويلة المدى بين البكسلات في الصورة الأولى، ونُنفّذ تجميعًا عالميًا على ميزات الحركة المقابلة. نُظهر أن تقديرات التدفق البصري في المناطق المُظللة يمكن تحسينها بشكل ملحوظ دون التأثير على الأداء في المناطق غير المُظللة. يحقق هذا النهج نتائج جديدة وتحتاج إلى أفضل النتائج المنشورة حتى الآن على مجموعة بيانات Sintel الصعبة، حيث يُحسّن متوسط خطأ النقطة النهائية بنسبة 13.6٪ على Sintel Final و13.7٪ على Sintel Clean. في وقت التقديم، يُصنف هذا الأسلوب كأفضل أداء بين جميع الأساليب المنشورة وغير المنشورة على هذه المعايير. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/zacjiang/GMA


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp