RAPIDFlow: هرميات متكررة قابلة للتكيف مع فك تشفير تكراري لتقدير التدفق البصري الفعّال

استخراج معلومات الحركة من مقاطع الفيديو باستخدام تقدير التدفق البصري يُعد أمرًا بالغ الأهمية في العديد من التطبيقات العملية للروبوتات. تُظهر الطرق الحالية لتقدير التدفق البصري دقة ملحوظة، لكن أقصى الأداء في هذه الطرق ينطوي على تكاليف حسابية عالية، مما يجعلها غير مناسبة للأجهزة المدمجة. وعلى الرغم من أن بعض الدراسات السابقة ركّزت على تطوير استراتيجيات تدفق بصري منخفضة التكلفة، إلا أن جودة تقديرها تُظهر فجوة ملحوظة مقارنة بالطرق الأكثر متانة. في هذا البحث، نُقدّم طريقة جديدة لتقدير التدفق البصري عالي الجودة بكفاءة على الأجهزة المدمجة. يعتمد نموذجنا RAPIDFlow على دمج كتل الت convolution NeXt1D الفعّالة مع بنية متكررة بالكامل تعتمد على هرمية الميزات، بهدف تقليل التكاليف الحسابية دون التأثير بشكل كبير على دقة التقدير. ويُنتج المشفر المتكرر القابل للتكيف ميزات متعددة المقاييس باستخدام كتلة مشتركة واحدة، مما يمكّننا من تعديل طول الهرمية أثناء التقييم، وجعل النموذج أكثر مقاومة للتغيرات في حجم المدخلات. علاوةً على ذلك، يتيح هذا التصميم للنموذج تقديم توازنات متعددة بين الدقة والسرعة، بما يناسب تطبيقات مختلفة. أظهرت التجارب التي أُجريت باستخدام نظام جيتسون أورين إكس على معايير مفتوحة مثل MPI-Sintel وKITTI أن نموذج RAPIDFlow يتفوّق على الطرق السابقة بمقدار كبير، وبسرعات أسرع.