FlowFormer: معمارية ترانسفورمر للتدفق البصري

نُقدِّم شبكة عصبية قائمة على التحويلة (Transformer) تُسمَّى "FlowFormer"، وهي معمارية مبنية على التحويلة لتعلُّم تدفق بصري (optical flow). تقوم FlowFormer بتقسيم الحجم التكلفي 4D الناتج عن زوج من الصور إلى وحدات (Tokens)، ثم تُشفَّر هذه الوحدات التكلفية إلى ذاكرة تكلفية باستخدام طبقات تحويلة مجموعات متناوبة (AGT) في فضاء خفي مبتكر، وتُفكَّر الذاكرة التكلفية لاحقًا عبر مُفكِّك تحويلة متكرر (Recurrent Transformer Decoder) يعتمد على استعلامات تكلفية موضعية ديناميكية. على معيار Sintel، حققت FlowFormer خطأ متوسطًا في النقطة النهائية (AEPE) قدره 1.159 و2.088 في المرحلتين النظيفتين والنهائية، بانخفاض في الخطأ بنسبة 16.5% و15.5% مقارنة بأفضل نتيجة منشورة سابقًا (1.388 و2.47). علاوةً على ذلك، تُظهر FlowFormer أداءً قويًا في التعميم. وبلا تدريب على مجموعة Sintel، حققت خطأً متوسطًا في النقطة النهائية قدره 1.01 في المرحلة النظيفة لمجموعة تدريب Sintel، متفوّقةً على أفضل نتيجة منشورة سابقة (1.29) بنسبة 21.7%.