HyperAIHyperAI
منذ 17 أيام

CRAFT: تدفق متعدد الانتباه التحويلي للتدفق البصري الموثوق

Xiuchao Sui, Shaohua Li, Xue Geng, Yan Wu, Xinxing Xu, Yong Liu, Rick Goh, Hongyuan Zhu
CRAFT: تدفق متعدد الانتباه التحويلي للتدفق البصري الموثوق
الملخص

تهدف تقدير الحركة البصرية (Optical Flow Estimation) إلى تحديد حقل الحركة ثنائي الأبعاد من خلال تحديد النقاط المتطابقة بين صورتين. وعلى الرغم من التقدم الكبير الذي أحرزته الطرق القائمة على التعلم العميق لتقدير الحركة البصرية، تظل دقة تقدير الانزياحات الكبيرة مع التشويش الناتج عن الحركة تحديًا كبيرًا. ويُعزى ذلك في المقام الأول إلى أن حجم الارتباط (Correlation Volume)، الذي يُعد الأساس في مطابقة النقاط، يُحسب كجداء داخلي (Dot Product) بين السمات المُستخلصة من الصورتين عبر طبقات توليفية (Convolutional Features). ونظرًا لطبيعة السمات التوليفية التي تكون محلية (Local)، فإن الارتباطات المحسوبة تكون عرضة لعوامل التشويش المختلفة. وفي حالة الانزياحات الكبيرة المصحوبة بالتشويش الناتج عن الحركة، يمكن أن تؤدي هذه الارتباطات المشوهة إلى أخطاء كبيرة في تقدير الحركة. لتجاوز هذا التحدي، نقترح معمارية جديدة تُسمى "مُحول التدفق ذي الانتباه المتبادل" (CRoss-Attentional Flow Transformer – CRAFT)، والتي تهدف إلى إحياء طريقة حساب حجم الارتباط. في معمارية CRAFT، يتم استخدام طبقة "مُحول التسوية الدلالية" (Semantic Smoothing Transformer) لتحويل السمات الخاصة بإطار واحد، مما يجعلها أكثر شمولاً وثباتًا دلاليًا. علاوةً على ذلك، يتم استبدال الارتباطات الناتجة عن الجداء الداخلي بطبقة انتباه متبادل بين الإطارات (Cross-Frame Attention) في المحول (Transformer). وتُستخدم هذه الطبقة في تصفية الضوضاء من السمات من خلال تطبيقات الاستعلام (Query) والبحث (Key)، وحساب ارتباطات أكثر دقة. وقد حققت CRAFT أداءً جديدًا على مستوى الحد الأقصى (State-of-the-Art) على معايير Sintel (Final) وKITTI (الخلفية الأمامية). بالإضافة إلى ذلك، لاختبار مرونة النماذج المختلفة أمام الحركات الكبيرة، قمنا بتصميم هجوم تبديل الصور (Image Shifting Attack)، يقوم بتحريك الصور المدخلة لتوليد حركات اصطناعية كبيرة. وفي ظل هذا الهجوم، أظهرت CRAFT مقاومة أقوى بكثير مقارنة بنموذجين ممثلين، وهما RAFT وGMA. يُمكن الاطلاع على الكود المصدر لمعمارية CRAFT عبر الرابط التالي: https://github.com/askerlee/craft.