مويفينتس: الشبكات الفيديوية المحمولة للتعرف الفعّال على الفيديو

نقدّم شبكة الفيديو المتنقلة (MoViNets)، وهي عائلة من الشبكات الفيديوية الفعّالة من حيث الحساب والذاكرة، قادرة على العمل على مقاطع الفيديو المتدفقة لتنفيذ الاستنتاجات في الوقت الفعلي. تُعدّ الشبكات العصبية التلافيفية الثلاثية الأبعاد (3D CNNs) دقيقة في التعرف على الفيديو، لكنها تتطلب ميزانيات كبيرة من الحساب والذاكرة، ولا تدعم الاستنتاج في الوقت الفعلي، مما يجعل استخدامها صعبًا على الأجهزة المتنقلة. نقترح نهجًا مكوّنًا من ثلاث خطوات لتحسين الكفاءة الحسابية وتقليل الاستخدام الذروي للذاكرة في الشبكات 3D CNN بشكل كبير. أولاً، نصمم فضاء بحث للشبكات الفيديوية، ونستخدم تقنية تحسين معمارية الشبكة العصبية (Neural Architecture Search) لإنشاء هياكل 3D CNN فعّالة ومتنوعة. ثانيًا، نقدّم تقنية "مُخزن التدفق" (Stream Buffer) التي تفصل بين الذاكرة وطول مقطع الفيديو، ما يسمح للشبكات 3D CNN بتضمين تسلسلات فيديو متسلسلة بأي طول أثناء التدريب والاستنتاج، مع حجم ذاكرة ثابت وصغير. ثالثًا، نقترح تقنية تجميع بسيطة لتحسين الدقة دون التضحية بالكفاءة. تُمكّن هذه التقنيات الثلاثة المتطورة MoViNets من تحقيق أداءً يُعدّ من أفضل الأداء على مجموعات بيانات التعرف على الحركات في الفيديو مثل Kinetics وMoments in Time وCharades. على سبيل المثال، تحقق MoViNet-A5-Stream نفس الدقة التي تحققها X3D-XL على مجموعة Kinetics 600، مع استهلاك 80٪ أقل من العمليات الحسابية (FLOPs) و65٪ أقل من الذاكرة. سيتم إتاحة الكود عبر الرابط: https://github.com/tensorflow/models/tree/master/official/vision.