منذ 17 أيام

طريقة متعددة الشبكات لتدريب نماذج الفيديو بكفاءة

Chao-Yuan Wu, Ross Girshick, Kaiming He, Christoph Feichtenhofer, Philipp Krähenbühl

الملخص

تدريب النماذج العميقة التنافسية للفيديوهات أبطأ بمرتبة من تدريب نماذج الصور المماثلة. ويعتبر التدريب البطيء سببًا في تطويل دورة البحث، مما يعيق التقدم في أبحاث فهم الفيديو. ووفقًا للممارسة القياسية في تدريب نماذج الصور، يفترض تدريب نماذج الفيديو شكلًا ثابتًا للكتلة الصغيرة (mini-batch): عدد محدد من المقاطع، والإطارات، والحجم المكاني. لكن ما هو الشكل الأمثل؟ تُظهر النماذج ذات الدقة العالية أداءً جيدًا، لكنها تُدرّب ببطء. في المقابل، تُدرّب النماذج منخفضة الدقة بسرعة، لكنها أقل دقة. مستلهمين من طرق المتعددة الشبكات (multigrid) في التحسين العددي، نقترح استخدام أشكال متغيرة للكتل الصغيرة بدرجات مختلفة من الدقة المكانية-الزمنية، وتُعدّل هذه الأشكال وفق جدول زمني مُحدد. وتظهر هذه الأشكال المختلفة من خلال إعادة أخذ عينات من بيانات التدريب على شبكات عينات متعددة. ويتم تسريع التدريب من خلال زيادة حجم الكتلة الصغيرة ومعدل التعلم عند تقليل الأبعاد الأخرى. ونُظهر تجريبيًا جدولاً شبكيًا عامًا ومقاومًا يحقق تحسينًا كبيرًا في سرعة التدريب دون فقدان في الدقة لعدة نماذج (I3D، non-local، SlowFast)، وبيانات مختلفة (Kinetics، Something-Something، Charades)، وبيئات تدريب مختلفة (مع أو بدون تدريب مسبق، باستخدام 128 بطاقة GPU أو بطاقة واحدة فقط). كمثال توضيحي، يُدرّب المنهج المتعدد الشبكات المقترح شبكة ResNet-50 SlowFast بسرعة 4.5 مرة أسرع (حسب الوقت الفعلي، بنفس المعدات) مع تحسين في الدقة (+0.8% مطلقًا) على مجموعة بيانات Kinetics-400 مقارنة بمنهج التدريب الأساسي. وتم توفير الشيفرة البرمجية عبر الإنترنت.