HyperAIHyperAI
منذ 17 أيام

طريقة متعددة الشبكات لتدريب نماذج الفيديو بكفاءة

Chao-Yuan Wu, Ross Girshick, Kaiming He, Christoph Feichtenhofer, Philipp Krähenbühl
طريقة متعددة الشبكات لتدريب نماذج الفيديو بكفاءة
الملخص

تدريب النماذج العميقة التنافسية للفيديوهات أبطأ بمرتبة من تدريب نماذج الصور المماثلة. ويعتبر التدريب البطيء سببًا في تطويل دورة البحث، مما يعيق التقدم في أبحاث فهم الفيديو. ووفقًا للممارسة القياسية في تدريب نماذج الصور، يفترض تدريب نماذج الفيديو شكلًا ثابتًا للكتلة الصغيرة (mini-batch): عدد محدد من المقاطع، والإطارات، والحجم المكاني. لكن ما هو الشكل الأمثل؟ تُظهر النماذج ذات الدقة العالية أداءً جيدًا، لكنها تُدرّب ببطء. في المقابل، تُدرّب النماذج منخفضة الدقة بسرعة، لكنها أقل دقة. مستلهمين من طرق المتعددة الشبكات (multigrid) في التحسين العددي، نقترح استخدام أشكال متغيرة للكتل الصغيرة بدرجات مختلفة من الدقة المكانية-الزمنية، وتُعدّل هذه الأشكال وفق جدول زمني مُحدد. وتظهر هذه الأشكال المختلفة من خلال إعادة أخذ عينات من بيانات التدريب على شبكات عينات متعددة. ويتم تسريع التدريب من خلال زيادة حجم الكتلة الصغيرة ومعدل التعلم عند تقليل الأبعاد الأخرى. ونُظهر تجريبيًا جدولاً شبكيًا عامًا ومقاومًا يحقق تحسينًا كبيرًا في سرعة التدريب دون فقدان في الدقة لعدة نماذج (I3D، non-local، SlowFast)، وبيانات مختلفة (Kinetics، Something-Something، Charades)، وبيئات تدريب مختلفة (مع أو بدون تدريب مسبق، باستخدام 128 بطاقة GPU أو بطاقة واحدة فقط). كمثال توضيحي، يُدرّب المنهج المتعدد الشبكات المقترح شبكة ResNet-50 SlowFast بسرعة 4.5 مرة أسرع (حسب الوقت الفعلي، بنفس المعدات) مع تحسين في الدقة (+0.8% مطلقًا) على مجموعة بيانات Kinetics-400 مقارنة بمنهج التدريب الأساسي. وتم توفير الشيفرة البرمجية عبر الإنترنت.