X3D: توسيع المعمارية للاعتراف الفعّال بالفيديو

تقدم هذه الورقة معيار X3D، وهو عائلة من الشبكات الفيديوية الفعّالة التي تقوم بتوسيع تدريجي لهيكل صغير لتصنيف الصور ثنائية الأبعاد عبر محاور الشبكة المتعددة: الفضاء، الزمن، العرض، والعمق. مستوحاة من أساليب اختيار الميزات في التعلم الآلي، تُستخدم طريقة بسيطة لتوسيع الشبكة خطوة بخطوة، حيث يتم توسيع محور واحد في كل خطوة، مما يُحقق توازنًا ممتازًا بين الدقة وتعقيد الشبكة. لتوسيع X3D إلى تعقيد مستهدف معين، نُنفّذ توسيعًا تدريجيًا للأمام يتبعه انكماش عكسي. تحقق X3D أداءً يُعدّ الأفضل في مجاله، مع احتياجها إلى 4.8 مرة وأكثر من 5.5 مرة أقل من عمليات الضرب والجمع (multiply-adds) والمتغيرات (البارامترات) مقارنةً بالعمل السابق، مع الحفاظ على دقة مشابهة. وأبرز اكتشاف لدينا هو أن الشبكات ذات الدقة الفضائية-الزمنية العالية يمكنها الأداء الجيد، مع أن تكون خفيفة جدًا من حيث عرض الشبكة والمتغيرات. نُعلن عن دقة تنافسية على معايير تصنيف وتحديد الفيديو، بفعالية غير مسبوقة. سيكون الكود متاحًا عبر: https://github.com/facebookresearch/SlowFast