FastFlowNet: شبكة خفيفة الوزن لتقدير التدفق البصري السريع

تُعد تقدير التدفق البصري الكثيف عنصراً أساسياً في العديد من مهام الرؤية الروبوتية. في السنوات القليلة الماضية، ومع ظهور التعلم العميق، شهدنا تقدماً كبيراً في تقدير التدفق البصري. ومع ذلك، فإن الشبكات الحالية غالبًا ما تتكون من عدد كبير من المعلمات وتتطلب تكاليف حسابية كبيرة، مما يعيق إلى حد كبير تطبيقها على الأجهزة ذات الاستهلاك المنخفض للطاقة مثل الهواتف المحمولة. في هذه الورقة، نعالج هذه التحديات ونصمم نموذجاً خفيفاً للتنبؤ السريع والدقيق بالتدرج البصري. يعتمد نموذجنا المُسمى FastFlowNet على النموذج الشائع "من العام إلى الخاص"، مع ابتكارات متعددة. أولاً، نستخدم مستخرج ميزات جديد يُدعى "هرم التجميع المُعزز بالاستخلاص (HEPP)" لتعزيز ميزات الهرم عالية الدقة مع تقليل عدد المعلمات. ثانيًا، نقدم طبقة جديدة تُسمى "الارتباط المُدرج المركزي الكثيف (CDDC)" لبناء حجم تكلفة مدمج يمكنه الحفاظ على نطاق بحث واسع مع تقليل العبء الحسابي. ثالثًا، نُدمج بلوك تفكيك فعّال يُسمى "SBD" في كل مستوى من مستويات الهرم لتسريع عملية تقدير التدفق مع انخفاض طفيف في الدقة. أظهرت التجارب على بيانات Sintel الاصطناعية وبيانات KITTI الواقعية فعالية النهج المقترح، حيث يحتاج فقط إلى 1/10 من الحسابات المطلوبة في الشبكات المماثلة لتحقيق دقة مماثلة. وبشكل خاص، يحتوي FastFlowNet على 1.37 مليون معلمة فقط، ويمكنه التشغيل بسرعة 90 إطاراً في الثانية (باستخدام بطاقة GTX 1080Ti واحدة) أو 5.7 إطاراً في الثانية (على وحدة معالجة رسومات Jetson TX2 المدمجة) عند معالجة زوج من الصور من بيانات Sintel بدقة 1024x436.