شبكة التحويلة المرئية

يقدم هذا البحث إطار عمل يُسمى VTN، وهو إطار مبني على المحولات (Transformer) للتمييز في الفيديو. مستوحى من التطورات الحديثة في المحولات البصرية، نتخلى عن النهج القياسي في تمييز الحركات في الفيديو الذي يعتمد على الشبكات العصبية التلافيفية الثلاثية الأبعاد (3D ConvNets)، ونُقدّم طريقة تصنف الحركات من خلال التركيز على معلومات التسلسل الكامل للفيديو. يتميز نهجنا بالعمومية، حيث يُبنى على أي شبكة فضائية ثنائية الأبعاد (2D) مُعطاة. من حيث زمن التشغيل الفعلي على الجدار (wall runtime)، يُدرّس النموذج بسرعة تزيد عن 16.1 مرة، ويُنفّذ بسرعة تزيد عن 5.1 مرة أثناء الاستدلال، مع الحفاظ على دقة تنافسية مقارنةً بطرق الحالة الحالية الأخرى. ويُمكّن هذا النهج من تحليل الفيديو بالكامل من خلال عملية واحدة نهائية (end-to-end)، مع تقليل الحاجة إلى 1.5 مرة من العمليات الحسابية (GFLOPs). نُقدّم نتائج تنافسية على مجموعة بيانات Kinetics-400، ونُجري دراسة تحليلية (ablation study) لخصائص VTN، ونُناقش التوازن بين الدقة وسرعة الاستدلال. نأمل أن يُصبح هذا النهج قاعدة معيارية جديدة، ويُشعل خطًا بحثيًا جديدًا في مجال تمييز الفيديو. يمكن الوصول إلى الكود والنماذج من خلال الرابط التالي: https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md